Mari-Lab

Материал из Mari-Lab
Перейти к: навигация, поиск

I.

В данный момент марийский машинный переводчик реализован в Яндекс.Переводчике. В момент включения марийского языка в Яндекс.Переводчик у нас был небольшой объём параллельного корпуса. Для улучшения работы марийского переводчика или создания нового продолжаются работы по выравниванию параллельных предложений (марийских и русских) и пополнению параллельного корпуса. В папке mhr --> rus находятся выравненные предложения, переведённые с марийского на русский, а в папке rus --> mhr — с русского на марийский. На сегодняшний день для обучения нейросети это не имеет значения, но это сделано на перспективу...

II.

Для создания синтезатора марийской речи методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.

Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: >>>.

Раскладка клавиатуры

Электронные словари

Сервис проверки правописания

Машинные переводчики

Электронная библиотека

Корпус марийского языка

Локализация программного обеспечения

Изучение марийского языка

Работа над созданием Русско-марийского словаря

Ссылки