Подготовка датасета для обучения нейросети

Материал из Mari-Lab
Перейти к: навигация, поиск
Corp.jpg

В данный момент марийский машинный переводчик реализован в Яндекс.Переводчике. В момент включения марийского языка в Яндекс.Переводчик у нас был небольшой объём параллельного корпуса. Для улучшения работы марийского переводчика или создания нового продолжаются работы по выравниванию параллельных предложений (марийских и русских) и пополнению параллельного корпуса. В папке mhr --> rus находятся выравненные предложения, переведённые с марийского на русский, а в папке rus --> mhr — с русского на марийский. На сегодняшний день для обучения нейросети это не имеет значения, но это сделано на перспективу...

В настоящий момент объём параллельного корпуса составляет 357.528 выравненных предложений на русском и марийского языках.