Датасет для распознавания марийской речи
Перейти к навигации
Перейти к поиску
В 2022 году датасеты Common Voice были опубликованы:
19 января
Тогда марийского языка в Common Voice не было: марийский язык в этой платформе появился 20 февраля 2022 года.
Следующая версия датасетов опубликована:
27 апреля
Там появился марийский датасет. Датасет представляет из себя архив, который включает из себя папку clips c mp3-файлами и следующие файлы:
dev.tsv invalidated.tsv other.tsv reported.tsv test.tsv train.tsv validated.tsv