Mari-Lab: различия между версиями

Материал из Mari-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
Строка 5: Строка 5:
'''II.'''
'''II.'''


'''Для создания синтезатора марийской речи''' методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей. Довольно большие объёмы аудиозаписей на разных языках: коми, удмуртском, башкирском, крымско-татарском, чувашском и др. языках можно найти на сайте [http://www.bible.is/ '''bible.is'''].
'''Для создания синтезатора марийской речи''' методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.


Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: [https://cloud.mail.ru/public/YCkw/fpBN7nbrr '''cloud.mail.ru'''].
Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: [https://cloud.mail.ru/public/YCkw/fpBN7nbrr '''cloud.mail.ru'''].

Версия от 14:28, 21 августа 2021

I.

В данный момент марийский машинный переводчик реализован в Яндекс.Переводчике. В момент включения марийского языка в Яндекс.Переводчик у нас был небольшой объём параллельного корпуса. Для улучшения работы марийского переводчика или создания нового продолжаются работы по выравниванию параллельных предложений (марийских и русских) и пополнению параллельного корпуса. В папке mhr --> rus находятся выравненные предложения, переведённые с марийского на русский, а в папке rus --> mhr — с русского на марийский. На сегодняшний день для обучения нейросети это не имеет значения, но это сделано на перспективу...

II.

Для создания синтезатора марийской речи методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.

Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: cloud.mail.ru.

Раскладка клавиатуры

Электронные словари

Сервис проверки правописания

Машинные переводчики

Электронная библиотека

Корпус марийского языка

Локализация программного обеспечения

Изучение марийского языка

Работа над созданием Русско-марийского словаря

Ссылки