Датасет для распознавания марийской речи

Материал из Mari-Lab
Перейти к: навигация, поиск

В 2022 году датасеты Common Voice были опубликованы:

19 января

Тогда марийского языка в Common Voice не было: марийский язык в этой платформе появился 20 февраля 2022 года.

Следующая версия датасетов опубликована:

27 апреля

Там появился марийский датасет. Датасет представляет из себя архив, который включает из себя папку clips c mp3-файлами и следующие файлы:

dev.tsv
invalidated.tsv
other.tsv
reported.tsv
test.tsv
train.tsv
validated.tsv