Mari-Lab — различия между версиями

Материал из Mari-Lab
Перейти к: навигация, поиск
(Ссылки)
Строка 1: Строка 1:
'''Аудиокорпус с образцами речи''' является «сырьём» для создания системы распознавания речи программы, которая речь человека переводит в текст. Например, журналист записанное интервью на диктофон с помощью распознавания речи моментально переводит в текстовый файл. В голосовых помощниках также используется распознавание речи. Та же «Алиса» никогда не будет понимать марийскую речь, если мы не подготовим аудиокорпус с образцами марийской речи.
+
'''Для создания синтезатора марийской речи''' методом правил необходим аудиокорпус аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей. Довольно большие объёмы аудиозаписей на разных языках: коми, удмуртском, башкирском, крымско-татарском, чувашском и др. языках можно найти на сайте ['''bible.is''' http://www.bible.is/].
  
Мы надеемся на соучастность каждого марийца в данном проекте. Любой желающий помочь проекту может скачать файлы, которые надо озвучить, записать на цифровой диктофон или смартфон и выслать записанные файлы на почтовый адрес организаторов проекта. Как это сделать, читайте [[Образцы_марийской_речи|на странице проекта]].
+
Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. На сайте bible.is он озвучивает послания святого апостола Павла. Выкачиваем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений. В данном аудиокорпусе получилось более 8 часов аудиозаписи (более 12 тыс. предложений): ['''cloud.mail.ru''' https://cloud.mail.ru/public/2CZR/5eCFZaUqG/].
  
 
== Раскладка клавиатуры ==
 
== Раскладка клавиатуры ==

Версия 13:41, 18 октября 2020

Для создания синтезатора марийской речи методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей. Довольно большие объёмы аудиозаписей на разных языках: коми, удмуртском, башкирском, крымско-татарском, чувашском и др. языках можно найти на сайте [bible.is http://www.bible.is/].

Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. На сайте bible.is он озвучивает послания святого апостола Павла. Выкачиваем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений. В данном аудиокорпусе получилось более 8 часов аудиозаписи (более 12 тыс. предложений): [cloud.mail.ru https://cloud.mail.ru/public/2CZR/5eCFZaUqG/].

Раскладка клавиатуры

Электронные словари

Сервис проверки правописания

Машинные переводчики

Электронная библиотека

Локализация программного обеспечения

Изучение марийского языка

Работа над созданием Русско-марийского словаря

Ссылки