Mari-Lab — различия между версиями

Материал из Mari-Lab
Перейти к: навигация, поиск
(Ссылки)
(Изучение марийского языка)
 
(не показано 9 промежуточных версий этого же участника)
Строка 1: Строка 1:
'''Аудиокорпус с образцами речи''' является «сырьём» для создания системы распознавания речи программы, которая речь человека переводит в текст. Например, журналист записанное интервью на диктофон с помощью распознавания речи моментально переводит в текстовый файл. В голосовых помощниках также используется распознавание речи. Та же «Алиса» никогда не будет понимать марийскую речь, если мы не подготовим аудиокорпус с образцами марийской речи.
+
'''Для создания синтезатора марийской речи''' методом правил необходим аудиокорпус аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей. Довольно большие объёмы аудиозаписей на разных языках: коми, удмуртском, башкирском, крымско-татарском, чувашском и др. языках можно найти на сайте [http://www.bible.is/ '''bible.is'''].
  
Мы надеемся на соучастность каждого марийца в данном проекте. Любой желающий помочь проекту может скачать файлы, которые надо озвучить, записать на цифровой диктофон или смартфон и выслать записанные файлы на почтовый адрес организаторов проекта. Как это сделать, читайте [[Образцы_марийской_речи|на странице проекта]].
+
Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. На сайте bible.is он озвучивает послания святого апостола Павла. Выкачиваем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений. В данном аудиокорпусе получилось более 8 часов аудиозаписи: [https://cloud.mail.ru/public/2f76/4UHPjGjs7 '''cloud.mail.ru'''].
 +
 
 +
Чтобы добрать необходимый объём аудиозаписей, строим студию звукозаписи, пишем аудиокниги, запускаем [https://castbox.fm/channel/id3103951?country=ru '''подкаст''']... И этот аудиокорпус будем выкладывать сюда: [https://cloud.mail.ru/public/4AQo/2Zs4Kyz9G '''cloud.mail.ru'''].
  
 
== Раскладка клавиатуры ==
 
== Раскладка клавиатуры ==
Строка 28: Строка 30:
 
* [[Марийские лингвисты]]
 
* [[Марийские лингвисты]]
 
* [[«Ончыко» журнал савыктен|Библиография журнала «Ончыко»]]
 
* [[«Ончыко» журнал савыктен|Библиография журнала «Ончыко»]]
* [https://cloud.mail.ru/public/4aZ4/EqNYyLkS7 Марийские электронные книги в формате FB2, EPUB, MOBI]
+
* [https://cloud.mail.ru/public/4aZ4/EqNYyLkS7 Марийские электронные книги в формате FB2, EPUB]
 
* [https://cloud.mail.ru/public/2niS/3Xz1hJUu2 Марийские аудиокниги]
 
* [https://cloud.mail.ru/public/2niS/3Xz1hJUu2 Марийские аудиокниги]
 +
 +
== Корпус марийского языка ==
 +
* [http://corp.marnii.ru/ МарНИИЯЛИ им В.М. Васильева]
 +
* [http://gtweb.uit.no/u_korp/?mode=mhr#?stats_reduce=word&cqp=%5B%5D Арктический университет]
 +
* [https://www.univie.ac.at/maridict/site-2014/corpus-desc.php?int=2 Венский университет]
 +
* [http://meadow-mari.web-corpora.net/ Школа лингвистики ВШЭ]
  
 
== Локализация программного обеспечения ==
 
== Локализация программного обеспечения ==
 
* [[Poedit|Использование Poedit]]
 
* [[Poedit|Использование Poedit]]
 +
* [https://translations.telegram.org/olykmarij/ Локализация мессенджера Telegram на марийский язык]
  
 
== Изучение марийского языка ==
 
== Изучение марийского языка ==
 
* [[Электронные курсы]]
 
* [[Электронные курсы]]
 +
* [https://www.youtube.com/channel/UCOu8u6vH5k_HwkONG4mpIUQ Ютуб-канал РЦМК]
 +
* [https://vk.com/mari_podcast Марийские аудиокниги в ВКонтакте]
  
 
== Работа над созданием Русско-марийского словаря ==
 
== Работа над созданием Русско-марийского словаря ==

Текущая версия на 15:54, 14 мая 2021

Для создания синтезатора марийской речи методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей. Довольно большие объёмы аудиозаписей на разных языках: коми, удмуртском, башкирском, крымско-татарском, чувашском и др. языках можно найти на сайте bible.is.

Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. На сайте bible.is он озвучивает послания святого апостола Павла. Выкачиваем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений. В данном аудиокорпусе получилось более 8 часов аудиозаписи: cloud.mail.ru.

Чтобы добрать необходимый объём аудиозаписей, строим студию звукозаписи, пишем аудиокниги, запускаем подкаст... И этот аудиокорпус будем выкладывать сюда: cloud.mail.ru.

Раскладка клавиатуры

Электронные словари

Сервис проверки правописания

Машинные переводчики

Электронная библиотека

Корпус марийского языка

Локализация программного обеспечения

Изучение марийского языка

Работа над созданием Русско-марийского словаря

Ссылки