Mari-Lab

Материал из Mari-Lab
Перейти к: навигация, поиск

Для создания синтезатора марийской речи методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей. Довольно большие объёмы аудиозаписей на разных языках: коми, удмуртском, башкирском, крымско-татарском, чувашском и др. языках можно найти на сайте [bible.is http://www.bible.is/].

Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. На сайте bible.is он озвучивает послания святого апостола Павла. Выкачиваем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений. В данном аудиокорпусе получилось более 8 часов аудиозаписи (более 12 тыс. предложений): [cloud.mail.ru https://cloud.mail.ru/public/2CZR/5eCFZaUqG/].

Раскладка клавиатуры

Электронные словари

Сервис проверки правописания

Машинные переводчики

Электронная библиотека

Локализация программного обеспечения

Изучение марийского языка

Работа над созданием Русско-марийского словаря

Ссылки