Нанайский электронный словарь

Материал из Mari-Lab
Перейти к навигации Перейти к поиску
Nanai 1.jpg
Nanai 2.jpg

Для создания нанайско-русского и русско-нанайского электронных словарей воспользуемся бумажными версиями следующих изданий:

Сканирование

Вышеуказанные бумажные версии словарей необходимо отсканировать. Сканирование — это по сути фотографирование, где каждая страница или разворот — это фотоснимок. Сканировать можно или на планшетных сканерах, что для объёмных книг процесс довольно долгий, или на книжных (планетарных) сканерах. Мы сканировали на книжном сканере ЭЛАР А2-600. Теоретически можно просто сфотографировать каждый разворот на цифровом фотоаппарате, что делать в нашем случае нежелательно.

Далее каждый скан разворота необходимо выровнять, порезать на страницы, выровнять по размеру все страницы. При необходимости можно изменить яркость и контрастность сканов. Далее можно сохранить изображения в PDF. Получается так называемый нераспознанный PDF. Например, в электронной библиотеке "Всё для студента" большинство PDF-ок именно нераспознанные. Читать такие PDF-ки можно, но поиска нет, и занимают они по сравнению с распознанными PDF-ми довольно большой объём.

Распознавание

Распознавание, или OCR (расшифровывается как оптическое распознование символов) — это перевод изображений (фотографий) текстов в текстовые данные, с которыми можно работать в текстовом редакторе.

Для распознавания мы воспользуемся проприетарной и платной программой ABBYY FineReader 12 Professional Edition. В данный момент у Abbyy есть более новые версии FineReader, но у нас была куплена лицензионная копия 12-й версии, им и будем распознавать отсканированные словари.

Данные словари состоят из русских и нанайских слов. В списке языков ABBYY FineReader выберем русский язык, а вот нанайского языка не обнаруживаем. К сожалению, компания Abbyy презрительно относится к российским языкам: там нет даже коми языка, который является государственным языком в Республике Коми, чего уже говорить о на̄ни хэсэни.

Итак, можно распознать с использованием только русского языка, но качество распознанных текстов будет желать лучшего.

Пользовательские языки

Создаём пользовательский язык на̄ни хэсэни на основе русского языка':

«СервисРедактор языковПользовательские языкиНовый».

Откроется окно Свойство языка

По умолчанию базовый язык — Русский. В имени нового языка вместо Копия (Русский) следует указать На̄ни хэсэни.

Nanai 3.jpg

В свойствах языка откроем "Алфавит языка" и добавим необходимые нам символы:

Nanai 4.jpg

Вопросы возникнут с гласными с долготами. В связи с непонятным принципом присвоения юникодов Консорциумом, мы обнаруживаем только две гласные с долготами: Ӣӣ, Ӯӯ. Для остальных гласных с долготами "собираем" из двух символов: гласной и знака долготы.

Именно так мы и распознали два вышеуказанных словаря. Что в свою очередь вызвало сложности у пользователей: они в строке поиска в PDF-просмотрщике вместо букв Ӣӣ, Ӯӯ вводили Ии, Уу.

Вердикт: редактируем пользовательский язык На̄ни хэсэни, убираем две буквы Ӣӣ, Ӯӯ, и их тоже "собираем" из двух символов: соответствующих гласных и знака долготы.

И снова перераспознаём наши словари.

Пользовательские словари

Некоторые языки в ABBYY FineReader имеют встроенные словари поддержки: они в процессе распознавания генерят все возможные словоформы в языке, сравнивают их с распознанными словами и при обнаружении ошибок проводят автоматическую корректуру. Но, к сожалению, для многих языков, которые есть в списке языков в ABBYY FineReader, не светит появление встроенных словарей поддержки: у них свой закрытый формат, а созданные, например, HunSpell-словари для многих языков, в том числе и для марийского языка, они категорически отказываются использовать.

В нашем случае остаётся использовать только пользовательские словари. Нажимаем Свойства нашего пользовательского словаря:

Nanai 5.jpg

Как видите, он пока пустой. Через вкладку Импорт можно импортировать список "правильных" словоформ. Обратите внимание, текстовый файл со списком словоформ должен быть создан в блокноте и сохранён в формате Unicode (UTF-16)!

Как составить список словоформ? Для этого воспользуемся корпус-менеджером AntConc: в папку соберём файлы с нанайскими текстами в *.txt (UTF-8), в AntConc составим Word List, и далее: File --> Save Output to Text File.

Распознавание с обучением

В связи с тем, что не все начертания шрифтов есть в встроенном эталоне ABBYY FineReader, желательно распознавание проводить с обучением.

Сервис --> Настройки:

Nanai 6.jpg

Поставьте галочки на "Использовать встроенные и пользовательские эталоны" и "Распознавание с обучением".

Сохранение распознанной книги

Сохранение распознанной книги в PDF

После того, как распознали книгу, а вам уже не терпится его сохранить в Microsoft Word, сохраните книгу сначала в PDF, иначе потом вы к этому вряд ли вернётесь:

Файл --> Сохранить документ как --> Документ PDF.

Перед тем, как отправите гулять в интернет данную PDF-ку, желательно в Adobe Acrobat Pro для улучшения индексирования поисковыми системами прописать метатеги:

Файл --> Свойства --> Описания:

Nanai 7.jpg

Сохранение распознанной книги в Microsoft Word

После создания PDF-ки, теперь данную книгу можно сохранить в Microsoft Word:

Файл --> Сохранить документ как --> Документ Microsoft Word.

Редактирование и корректура текста

После вычитки и корректуры текста получим такой "вордовский" файл:

Nanai 9.jpg

Кстати, словарь 1989 года мы перераспознали, получилось так: Словарь нанайско-русский и русско-нанайский. Издательство «Просвещение». Ленинград. 1989.

Распознаннный текст в LibreOffice, используя плагин Wiki Publisher, экспортировали в MediaWiki (.txt). Получилось так: Нанайско-русский словарь 1989, Русско-нанайский словарь 1989.

Нанайская раскладка клавиатуры

Для установки нанайской раскладки клавиатуры в Mac OS скачайте файл key_mac.zip (обычно zip-архивы сами распаковываются, но не у всех, если файл key_mac.zip не распаковался, то тогда вам придётся его распаковать вручную).

Перейдите в командную строку (терминал) и выполните следующую команду:

$ cp ~/Downloads/key_mac/*.* ~/Library/Keyboard\ Layouts/

Для некоторых версий Mac OS необходима перегрузка сеанса пользователя.

Перейдите по опциям: «Системные настройки» ---> «Язык и текст» ---> «Источники ввода» (а в OS Mavericks и выше ещё «+» ---> «Другие»), и напротив необходимой раскладки клавиатуры («На̄ни») поставьте галочку.

Nanai 13.jpg

Чтобы набрать а̄, необходимо, удерживая правый ALT, нажать на букву а:

- AltGr + «а» = «а̄»

- AltGr + «н» = «ӈ»

- AltGr + Shift + «н» = «Ӈ»

- AltGr + «о» = «о̄»

- AltGr + «у» = «ӯ»

- AltGr + «и» = «ӣ»

- и т. д.

P.S. Данную раскладку я делал в течение 20 минут. Очень даже возможно, что вас не будет устраивать данная клавиатура. Сделайте свою или отредактируйте эту раскладку в программе Ukelele.

Создание электронного словаря

Многие проходят сложный путь через сохранение "вордовского" файла в html.

Пользуйтесь LibreOffice, там есть встроенный плагин Wiki Publisher:

Nanai 10.jpg

В LibreOffice:

Файл --> Экспорт --> Тип файла: MediaWiki (.txt)

Получаем текстовый файл в вики-разметке:

Nanai 12.jpg

Далее уже наверное всё понятно: "найти и заменить" и регулярные выражения вам в помощь!

Для онлайн-словарей мы используем движок Glossword. Для того, чтобы импортировать словарь, его нужно представить в виде XML-файла. Например, нанайско-русский словарь 1989 года будет выглядеть так: gld-rus.xml. После того, как он импортирован, например, в "Онлайн-словари FU-Lab": Нанайско-русский словарь (1989), а русско-нанайский словарь rus-gld.xml соответственно: Русско-нанайский словарь (1989).

Обратите внимание, в Glossword можно создавать виртуальные клавиатуры (чтобы запустить, нажмите на значок клавиатуры, который находится рядом с значком "Поиск):

Nanai 14.jpg

Для офлайн-работы мы обычно словари переводим в DSL-формат. Нанайско-русский и русско-нанайский словари 1989 года в DSL-формате находятся в этой папке: nanairus.

Nanai 15.jpeg

Для гаджетов с андроид мы обычно используем бесплатную версию GoldenDict, которую можно скачать и установить с Play Market. Правда, в одно время в Play Market исчезла было бесплатная версия. Пользователи уже подумывали перейти на ColorDict. Но, по состоянию на сегодняшнее число бесплатная версия GoldenDict есть. И к этой программе-оболочке для электронных словарей можно подключить папку с нанайскими словарями nanairus:

Nanai 16.jpg

Не все пользователи смогут самостоятельно подключить скачанную папку со словарями к GoldenDict. Обратитесь к Григорию Григорьеву, может он вам напишет андроид-приложение и разместит его в Play Market...

Проблемы с Google Play

Раньше для гаджетов с Android мы делали приложения, которые скачивали папки со словарями в DSL-формате и подключали их к GoldenDict (к платной или бесплатной версии). А если у пользователя на гаджете не было приложения GoldenDict, то наши приложения скачивали бесплатную версию этой оболочки для электронных словарей и подключали необходимые словари. Например, марийско-русский словарь.

Но с недавнего времени в Google Play перестали размещаться приложения сделанные таким образом, например, нанайско-русский и русско-нанайские электронные словари.

Пытаться приспособить наши словари к приложениям типа ColorDict нет смысла, вдруг опять поменяются правила. Выход один: перегнать наши словари в XML или JSON. Вот тут собственно в XML-формате русско-нанайский и нанайско-русский словари.

Теперь дело осталось за малым: написать свою оболочку для электронных словарей и разместить её в Google Play...