Работа над созданием синтезатора марийской речи: различия между версиями

Материал из Mari-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
Строка 3: Строка 3:


Студию скомплектовали следующим необходимым оборудованием:<br/>
Студию скомплектовали следующим необходимым оборудованием:<br/>
[[Файл:Студия_3.jpg|300px|left]]
– студийные микрофоны;<br/>
– студийные микрофоны;<br/>
– охватывающие наушники (головные телефоны) закрытого типа;<br/>
– охватывающие наушники (головные телефоны) закрытого типа;<br/>

Версия от 12:36, 20 января 2022

Студия.jpg

Для создания аудиокорпуса построили студию звукозаписи с хорошей звукоизоляцией, звукопоглощением и звукорассеиванием.

Студию скомплектовали следующим необходимым оборудованием:

Студия 3.jpg

– студийные микрофоны;
– охватывающие наушники (головные телефоны) закрытого типа;
– выносной usb-монитор;
– предусилитель для наушников;
– микшерный пульт;
– профессиональный аудиоинтерфейс;
– микрофон для связи с диктором;
– компьютер или ноутбук с звуковым редактором;
– стойки, соединительные кабели и т.д.
Запись и обработку аудиофайлов проводим в программе Sound Forge.

Для создания синтезатора марийской речи методом правил необходим аудиокорпус — аудиозаписи объёмом 10-20 часов, записанные голосом того человека, чей голос предполагается "синтезировать", и собственно тексты этих записей.

Мы мужским голосом выбрали голос актёра Марийского национального театра драмы им. М. Шкетана Павла Ефимова. В звукозаписывающей студии записываем аудио, в звуковом редакторе режем его по предложениям, предложения могут быть и короткие, и длинные, они все заканчиваются точкой, знаком восклицания или вопросительным знаком: где 00101.wav, 00102.wav, 00103.wav, ... — разбитые по предложениям аудиофайлы, а 00101.txt, 00102.txt, 00103.txt, ... — текстовые файлы соответствующих предложений. Получаем такой аудиокорпус.

Пример датасета в формате The LJ Speech Dataset.

Салам, Андрей.
Тугеже идалыкым Венера виктара. Тиде – ӱдырамаш вий-куат.
Тудо сурт, еш, йоча-влак дене кылдалтеш. Сандене у идалыкыште ешан лияш да тудым пеҥгыдемдаш тӱрлӧ ошкылым ыштыман.
Кокытан цифран идалыкыште йыгыр аза шукырак шочеш, маныт нумеролог-влак. Цифр-влакым иктеш ушена гын, кудыт лиеш.
Мутат уке, нелымат чтыаш логалеш.
Презе, Скорпион да Кол шукертсек азам ыштен кертын огытыл, но 2022 ийыште тиде куан толын кертеш.