Датасет для распознавания марийской речи

Материал из Mari-Lab
Версия от 09:50, 1 мая 2022; Андрей (обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

В 2022 году датасеты Common Voice были опубликованы:

19 января

Тогда марийского языка в Common Voice не было: марийский язык в этой платформе появился 20 февраля 2022 года.

Следующая версия датасетов опубликована:

27 апреля

Там появился марийский датасет. Датасет представляет из себя архив, который включает из себя папку clips c mp3-файлами и следующие файлы:

dev.tsv
invalidated.tsv
other.tsv
reported.tsv
test.tsv
train.tsv
validated.tsv