Mari-Lab: различия между версиями

Материал из Mari-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
Строка 8: Строка 8:


Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: [https://cloud.mail.ru/public/YCkw/fpBN7nbrr '''>>>'''].
Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: [https://cloud.mail.ru/public/YCkw/fpBN7nbrr '''>>>'''].
Датасет в формате [https://cloud.mail.ru/public/VAKT/WwWiTXYTC LJSpeech].


== Раскладка клавиатуры ==
== Раскладка клавиатуры ==

Версия от 18:05, 16 сентября 2021

I.

В данный момент марийский машинный переводчик реализован в Яндекс.Переводчике. В момент включения марийского языка в Яндекс.Переводчик у нас был небольшой объём параллельного корпуса. Для улучшения работы марийского переводчика или создания нового продолжаются работы по выравниванию параллельных предложений (марийских и русских) и пополнению параллельного корпуса. В папке mhr --> rus находятся выравненные предложения, переведённые с марийского на русский, а в папке rus --> mhr — с русского на марийский. На сегодняшний день для обучения нейросети это не имеет значения, но это сделано на перспективу...

II.

Для создания синтезатора марийской речи методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.

Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: >>>.

Датасет в формате LJSpeech.

Раскладка клавиатуры

Электронные словари

Сервис проверки правописания

Машинные переводчики

Электронная библиотека

Корпус марийского языка

Локализация программного обеспечения

Изучение марийского языка

Работа над созданием Русско-марийского словаря

Ссылки