Датасет для распознавания марийской речи
Версия от 09:50, 1 мая 2022; Андрей (обсуждение | вклад)
В 2022 году датасеты Common Voice были опубликованы:
19 января
Тогда марийского языка в Common Voice не было: марийский язык в этой платформе появился 20 февраля 2022 года.
Следующая версия датасетов опубликована:
27 апреля
Там появился марийский датасет. Датасет представляет из себя архив, который включает из себя папку clips c mp3-файлами и следующие файлы:
dev.tsv invalidated.tsv other.tsv reported.tsv test.tsv train.tsv validated.tsv