Mari-Lab: различия между версиями

Материал из Mari-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
 
(не показано 20 промежуточных версий этого же участника)
Строка 1: Строка 1:
'''I.'''
[[Файл:Mari-lab.jpeg|thumb]]
 
В данный момент марийский машинный переводчик реализован в [https://translate.yandex.ru/?lang=mrj-mhr&text=Шӓлӓ '''Яндекс.Переводчике''']. В момент включения марийского языка в Яндекс.Переводчик у нас был небольшой объём параллельного корпуса. Для улучшения работы марийского переводчика или создания нового продолжаются работы по выравниванию параллельных предложений (марийских и русских) и пополнению [https://cloud.mail.ru/public/eX8r/XhAPRcPYy '''параллельного корпуса''']. В папке [https://cloud.mail.ru/public/t3cT/SXbe6dz5A '''mhr --> rus'''] находятся выравненные предложения, переведённые с марийского на русский, а в папке [https://cloud.mail.ru/public/4YKt/JEJZ87FLX '''rus --> mhr'''] — с русского на марийский. На сегодняшний день для обучения нейросети это не имеет значения, но это сделано на перспективу...
 
'''II.'''
 
'''Для создания синтезатора марийской речи''' методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.
 
Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: [https://cloud.mail.ru/public/YCkw/fpBN7nbrr '''cloud.mail.ru'''].
 
== Раскладка клавиатуры ==
== Раскладка клавиатуры ==
* [[ Марийская раскладка клавиатуры]]
* [[ Марийская раскладка клавиатуры]]
Строка 16: Строка 7:


== Сервис проверки правописания ==
== Сервис проверки правописания ==
* [http://spell.mari-lab.ru Онлайн-сервис проверки правописания]
* [https://spell.mari-lab.ru Онлайн-сервис проверки правописания]
* [[Проверка правописания марийского языка]]
* [[Проверка правописания марийского языка]]


== Машинные переводчики ==
== Машинные переводчики ==
* [https://translate.yandex.ru/?lang=mrj-mhr&text=Шӓлӓ Яндекс.Переводчик]
* [https://translate.yandex.ru/?lang=mrj-mhr&text=Шӓлӓ Яндекс.Переводчик]
* [[Подготовка датасета для обучения нейросети]]
* [https://translate.ut.ee/ Финно-угорский машинный переводчик]


== Электронная библиотека ==
== Электронная библиотека ==
Строка 26: Строка 19:
* [[У сем (PDF)|Электронный архив журнала «У сем»]]
* [[У сем (PDF)|Электронный архив журнала «У сем»]]
* [[Марий_сандалык_(PDF)|Электронный архив журнала «Марий сандалык»]]
* [[Марий_сандалык_(PDF)|Электронный архив журнала «Марий сандалык»]]
* [[Марийские словари|Марийские словари]]
* [[Учебники на марийском языке|Учебники на марийском языке]]
* [[Учебники на марийском языке|Учебники на марийском языке]]
* [[Писатели Марий Эл]]
* [[Писатели Марий Эл]]
Строка 34: Строка 26:
* [[Марийские лингвисты]]
* [[Марийские лингвисты]]
* [[«Ончыко» журнал савыктен|Библиография журнала «Ончыко»]]
* [[«Ончыко» журнал савыктен|Библиография журнала «Ончыко»]]
* [https://cloud.mail.ru/public/4aZ4/EqNYyLkS7 Марийские электронные книги в формате FB2, EPUB]
* [https://cloud.mail.ru/public/GCGZ/Z9Gm5gAaX Марийские электронные книги в формате FB2, EPUB]
* [https://cloud.mail.ru/public/2niS/3Xz1hJUu2 Марийские аудиокниги]
* [https://cloud.mail.ru/public/YpvW/6kRuqd1fM Марийские аудиокниги]


== Корпус марийского языка ==
== Корпус марийского языка ==
Строка 46: Строка 38:
* [[Poedit|Использование Poedit]]
* [[Poedit|Использование Poedit]]
* [https://translations.telegram.org/olykmarij/ Локализация мессенджера Telegram на марийский язык]
* [https://translations.telegram.org/olykmarij/ Локализация мессенджера Telegram на марийский язык]
* [https://t.me/setlanguage/olykmarij Изменение интерфейса мессенджера Telegram на марийский язык]
* [https://codelookup.toolforge.org/mhr Локализация википроектов на марийский язык]


== Изучение марийского языка ==
== Изучение марийского языка ==
Строка 51: Строка 45:
* [https://www.youtube.com/channel/UCOu8u6vH5k_HwkONG4mpIUQ Ютуб-канал РЦМК]
* [https://www.youtube.com/channel/UCOu8u6vH5k_HwkONG4mpIUQ Ютуб-канал РЦМК]
* [https://vk.com/mari_podcast Марийские аудиокниги в ВКонтакте]
* [https://vk.com/mari_podcast Марийские аудиокниги в ВКонтакте]
== Синтезатор марийской речи ==
* [[Работа над созданием синтезатора марийской речи]]
== Распознавание марийской речи ==
* [https://commonvoice.mozilla.org/mhr Подготовка датасета для распознавания марийской речи]
* [https://pontoon.mozilla.org/mhr/ Локализация платформы Common Voice на марийский язык]
* [https://commonvoice.mozilla.org/sentence-collector/#/mhr/ Добавление предложений в Common Voice]
* [https://vk.com/mari_voice Группа проекта в ВК]
* [[Датасет для распознавания марийской речи]]
* [https://huggingface.co/spaces/AigizK/whisper-demo-ba Демо | Распознавание башкирской речи]
* [https://github.com/common-voice/common-voice/issues Github Common Voice]


== Работа над созданием Русско-марийского словаря ==
== Работа над созданием Русско-марийского словаря ==

Текущая версия от 12:23, 18 июля 2023

Mari-lab.jpeg

Раскладка клавиатуры

Электронные словари

Сервис проверки правописания

Машинные переводчики

Электронная библиотека

Корпус марийского языка

Локализация программного обеспечения

Изучение марийского языка

Синтезатор марийской речи

Распознавание марийской речи

Работа над созданием Русско-марийского словаря

Ссылки