Подготовка датасета для обучения нейросети

Материал из Mari-Lab
Перейти к навигации Перейти к поиску
Corp .jpg

В данный момент марийский машинный переводчик реализован в Яндекс.Переводчике. В момент включения марийского языка в Яндекс.Переводчик у нас был небольшой объём параллельного корпуса. Для улучшения работы марийского переводчика или создания нового продолжаются работы по выравниванию параллельных предложений (марийских и русских) и пополнению параллельного корпуса. В папке mhr --> rus находятся выравненные предложения, переведённые с марийского на русский, а в папке rus --> mhr — с русского на марийский. На сегодняшний день для обучения нейросети это не имеет значения, но это сделано на перспективу...

В настоящий момент объём параллельного корпуса составляет 370 тыс. выравненных предложений на русском и марийского языках.

Для обучения нейросети также необходим корпус марийских текстов.