Как мы делаем русско-марийский словарь

Материал из Mari-Lab
(перенаправлено с «Мутер»)
Перейти к: навигация, поиск
Muter 23.jpg

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

Подготовительная часть

Для будущих составителей русско-марийского словаря готовим следующие материалы: PDF-версии опубликованных словарей, онлайн-словари, словник (список названий словарных статей с ударениями, с грамматическими пометами и без), русско-марийский перевод из 10-томного Марийско-русского словаря и т.д. PDF-ки словарей также можно найти в Облаке Mail.Ru Марийской электронной библиотеки.

Работа составителей

Создаётся творческий коллектив по составлению словаря из сотрудников отдела языка МарНИИЯЛИ им. В.М. Васильева и языковедов МарГУ. Руководителем проекта разрабатывается структура словаря, основные требования к оформлению текста и другие требования и инструкции для составителей.

Утверждаются сроки для составителей. Составители свою часть словаря сдают руководителю проекта. Текстовый документ составителя в офисном пакете LibreOffice с помощью плагина Wiki Publisher в LibreOffice экспортируется: Файл --> Экспорт --> Тип файла: MediaWiki (.txt). Получаем текстовый файл в вики-разметке, который размещаем на сайте с вики-движком.

Фрагмент русско-марийского словаря после экспорта в MediaWiki (.txt)

Работа редакторов

Редакторы словаря вычитывают и правят текст на сайте. Чем помогаем мы? Словарь из сайта экспортируем в html. Получаем следующий текстовый файл:

Фрагмент русско-марийского словаря после экспорта в html

Сначала этот html-файл валидируем. Далее с помощью команд grep, sed и регулярных выражений делим текст на две части (на два файла): с русским и марийским текстами. Файл с русским текстом пропускаем через скрипт с русским HunSpell-ом, а с марийским — через марийский HunSpell. Получаем список ошибок с точки зрения программы: это могут быть и ошибки, опечатки, или, например, теги не там проставлены. Также приводим к единому виду список сокращений: например, один составитель использовал сокращение уст., а другой — устар. Проверяем ссылки: например, в словарной статье есть отсылка см. слово, а этого слова нет в словаре.

После того, как всё будет выправлено, из сайта копируем текст и ставим в текстовый редактор: Word или LibreOffice Writer:

Фрагмент русско-марийского словаря в текстовой редакторе

Как видим, после каждой строки есть стрелка вниз и влево — это обрыв строки. Чтобы его заменить на конец параграфа, например, в MicroSoft Word с помощью замены '^l' заменим на '^p'. Получаем привычный нам тест, который отдаём верстальщику бумажной версии словаря:

Фрагмент русско-марийского словаря в текстовой редакторе

После вёрстки и вычитки корректором вносим последние правки. Макет уходит в типографию. А мы параллельно выпускаем электронный словарь.

P.S. Не думайте, что у нас всё безоблачно и гладко. Но работа идёт. Ко Дню марийской письменности (10 декабря) надеемся презентовать Русско-марийский словарь (более 40 тыс. слов) в бумажной версии и в виде электронного словаря. А тем временем все желающие наблюдают в онлайне процесс создания Русско-марийского словаря, высказывая при этом свои конструктивные пожелания или едкие замечания…

Ссылки