Работа над созданием синтезатора марийской речи: различия между версиями

Материал из Mari-Lab
Перейти к навигации Перейти к поиску
(Новая страница: «'''Для создания синтезатора марийской речи''' методом правил необходим аудиокорпус — ауд…»)
 
Нет описания правки
Строка 1: Строка 1:
В звукозаписывающей студии записываем [https://cloud.mail.ru/public/YCkw/fpBN7nbrr '''аудиокорпус'''], где 00101.wav, 00102.wav, 00103.wav, ... — разбитые по предложениям аудиофайлы, а 00101.txt, 00102.txt, 00103.txt, ... —  текстовые файлы соответствующих предложений.
'''Для создания синтезатора марийской речи''' методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.
'''Для создания синтезатора марийской речи''' методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.



Версия от 10:04, 13 января 2022

В звукозаписывающей студии записываем аудиокорпус, где 00101.wav, 00102.wav, 00103.wav, ... — разбитые по предложениям аудиофайлы, а 00101.txt, 00102.txt, 00103.txt, ... — текстовые файлы соответствующих предложений.

Для создания синтезатора марийской речи методом правил необходим аудиокорпус — аудиозаписи объёмом более 10 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.

Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. Записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: 001.wav, 002.wav, 003.wav, ..., а в файлах 001.txt, 002.txt, 003.txt — размещаем текстовые файлы с текстами соответствующих предложений: >>>.

Пример датасета в формате The LJ Speech Dataset.