Нанайский электронный словарь
Для создания нанайско-русского и русско-нанайского электронных словарей воспользуемся бумажными версиями следующих изданий:
- С.Н. Оненко. Словарь нанайско-русский и русско-нанайский. Издательство «Просвещение». Ленинград. 1989.
- С.Н. Оненко. Нанайско-русский словарь. Нанай-лоча хэсэнкуни. Издательство «Русский язык». Москва. 1980.
Сканирование
Вышеуказанные бумажные версии словарей необходимо отсканировать. Сканирование — это по сути фотографирование, где каждая страница или разворот — это фотоснимок. Сканировать можно или на планшетных сканерах, что для объёмных книг процесс довольно долгий, или на книжных (планетарных) сканерах. Мы сканировали на книжном сканере ЭЛАР А2-600. Теоретически можно просто сфотографировать каждый разворот на цифровом фотоаппарате, что делать в нашем случае нежелательно.
Далее каждый скан разворота необходимо выровнять, порезать на страницы, выровнять по размеру все страницы. При необходимости можно изменить яркость и контрастность сканов. Далее можно сохранить изображения в PDF. Получается так называемый нераспознанный PDF. Например, в электронной библиотеке "Всё для студента" большинство PDF-ок именно нераспознанные. Читать такие PDF-ки можно, но поиска нет, и занимают они по сравнению с распознанными PDF-ми довольно большой объём.
Распознавание
Распознавание, или OCR (расшифровывается как оптическое распознование символов) — это перевод изображений (фотографий) текстов в текстовые данные, с которыми можно работать в текстовом редакторе.
Для распознавания мы воспользуемся проприетарной и платной программой ABBYY FineReader 12 Professional Edition. В данный момент у Abbyy есть более новые версии FineReader-а, но у нас была куплена лицензионная копия 12-й версии, им и будем распознавать отсканированные словари.
Данные словари состоят из русских и нанайских слов. В списке языков ABBYY FineReader выберем русский язык, а вот нанайского языка не обнаруживаем. К сожалению, компания Abbyy презрительно относится к российским языкам: там нет даже коми языка, который является государственным языком в Республике Коми, чего уже говорить о на̄ни хэсэни.
Итак, можно распознать с использованием только русского языка, но качество распознанных текстов будет желать лучшего.
Пользовательские языки
Создаём пользовательский язык на̄ни хэсэни на основе русского языка':
«Сервис → Редактор языков → Пользовательские языки → Новый».
Откроется окно Свойство языка
По умолчанию базовый язык — Русский. В имени нового языка вместо Копия (Русский) следует указать На̄ни хэсэни.
В свойствах языка откроем "Алфавит языка" и добавим необходимые нам символы:
Вопросы возникнут с гласными с долготами. В связи с непонятным принципом присвоения юникодов Консорциумом, мы обнаруживаем только две гласные с долготами: Ӣӣ, Ӯӯ. Для остальных гласных с долготами "собираем" из двух символов: гласной и знака долготы.
Именно так мы и распознали два вышеуказанных словаря. Что в свою очередь вызвало сложности у пользователей: они в строке поиска в PDF-просмотрщике вместо букв Ӣӣ, Ӯӯ вводили Ии, Уу.
Вердикт: редактируем пользовательский язык На̄ни хэсэни, убираем две буквы Ӣӣ, Ӯӯ, и их тоже "собираем" из двух символов: соответствующих гласных и знака долготы.
И снова перераспознаём наши словари.
Пользовательские словари
Некоторые языки в ABBYY FineReader имеют встроенные словари поддержки: они в процессе распознавания генерят все возможные словоформы в языке, сравнивают их с распознанными словами и при обнаружении ошибок проводят автоматическую корректуру. Но, к сожалению, для многих языков, которые есть в списке языков в ABBYY FineReader, не светит появление встроенных словарей поддержки: у них свой закрытый формат, а созданные, например, HunSpell-словари для многих языков, в том числе и для марийского языка, они категорически отказываются использовать.
В нашем случае остаётся использовать только пользовательские словари. Нажимаем Свойства нашего пользовательского словаря:
Как видите, он пока пустой. Через вкладку Импорт можно импортировать список "правильных" словоформ. Обратите внимание, текстовый файл со списком словоформ должен быть создан в блокноте и сохранён в формате Unicode (UTF-16)!
Как составить список словоформ? Для этого воспользуемся корпус-менеджером AntConc: в папку соберём файлы с нанайскими текстами в *.txt (UTF-8), в AntConc составим Word List, и далее: File --> Save Output to Text File.
Распознавание с обучением
В связи с тем, что не все начертания шрифтов есть в встроенном эталоне ABBYY FineReader, желательно распознавание проводить с обучением.
Сервис --> Настройки:
Поставьте галочки на "Использовать встроенные и пользовательские эталоны" и "Распознавание с обучением".
Сохранение распознанной книги
Сохранение распознанной книги в PDF
После того, как распознали книгу, а вам уже не терпится его сохранить в Microsoft Word, сохраните книгу сначала в PDF, иначе потом вы к этому вряд ли вернётесь:
Файл --> Сохранить документ как --> Документ PDF.
Перед тем, как отправите гулять в интернет данную PDF-ку, желательно в Adobe Acrobat Pro для улучшения индексирования поисковыми системами прописать метатеги:
Файл --> Свойства --> Описания:
Сохранение распознанной книги в Microsoft Word
После создания PDF-ки, теперь данную книгу можно сохранить в Microsoft Word:
Файл --> Сохранить документ как --> Документ Microsoft Word.
Редактирование и корректура текста
После вычитки и корректуры текста получим такой "вордовский" файл:
Кстати, словарь 1989 года мы перераспознали, получилось так: Словарь нанайско-русский и русско-нанайский. Издательство «Просвещение». Ленинград. 1989.
Распознаннный текст в LibreOffice, используя плагин Wiki Publisher, экспортировали в MediaWiki (.txt). Получилось так: Нанайско-русский словарь 1989, Русско-нанайский словарь 1989.
Нанайская раскладка клавиатуры
Для установки нанайской раскладки клавиатуры в Mac OS скачайте файл key_mac.zip (обычно zip-архивы сами распаковываются, но не у всех, если файл key_mac.zip не распаковался, то тогда вам придётся его распаковать вручную).
Перейдите в командную строку (терминал) и выполните следующую команду:
$ cp ~/Downloads/key_mac/*.* ~/Library/Keyboard\ Layouts/
Для некоторых версий Mac OS необходима перегрузка сеанса пользователя.
Перейдите по опциям: «Системные настройки» ---> «Язык и текст» ---> «Источники ввода» (а в OS Mavericks и выше ещё «+» ---> «Другие»), и напротив необходимой раскладки клавиатуры («На̄ни») поставьте галочку.
Чтобы набрать а̄, необходимо, удерживая правый ALT, нажать на букву а:
- AltGr + «а» = «а̄»
- AltGr + «н» = «ӈ»
- AltGr + Shift + «н» = «Ӈ»
- AltGr + «о» = «о̄»
- AltGr + «у» = «ӯ»
- AltGr + «и» = «ӣ»
- и т. д.
P.S. Данную раскладку я делал в течение 20 минут. Очень даже возможно, что вас не будет устраивать данная клавиатура. Сделайте свою или отредактируйте эту раскладку в программе Ukelele.
Создание электронного словаря
Многие проходят сложный путь через сохранение "вордовского" файла в html.
Пользуйтесь LibreOffice, там есть встроенный плагин Wiki Publisher:
В LibreOffice:
Файл --> Экспорт --> Тип файла: MediaWiki (.txt)
Получаем текстовый файл в вики-разметке:
Далее уже наверное всё понятно: "найти и заменить" и регулярные выражения вам в помощь!
Для онлайн-словарей мы используем движок Glossword. Для того, чтобы импортировать словарь, его нужно представить в виде XML-файла. Например, нанайско-русский словарь 1989 года будет выглядеть так: gld-rus.xml. После того, как он импортирован, например, в "Онлайн-словари FU-Lab": Нанайско-русский словарь (1989), а русско-нанайский словарь rus-gld.xml соответственно: Русско-нанайский словарь (1989).
Обратите внимание, в Glossword можно создавать виртуальные клавиатуры (чтобы запустить, нажмите на значок клавиатуры, который находится рядом с значком "Поиск):
Для офлайн-работы мы обычно словари переводим в DSL-формат. Нанайско-русский и русско-нанайский словари 1989 года в DSL-формате находятся в этой папке: nanairus.
Для гаджетов с андроид мы обычно используем бесплатную версию GoldenDict, которую можно скачать и установить с Play Market. Правда, в одно время в Play Market исчезла было бесплатная версия. Пользователи уже подумывали перейти на ColorDict. Но, по состоянию на сегодняшнее число бесплатная версия GoldenDict есть. И к этой программе-оболочке для электронных словарей можно подключить папку с нанайскими словарями nanairus:
Не все пользователи смогут самостоятельно подключить скачанную папку со словарями к GoldenDict. Обратитесь к Григорию Григорьеву, может он вам напишет андроид-приложение и разместит его в Play Market...
Проблемы с Google Play
Раньше для гаджетов с Android мы делали приложения, которые скачивали папки со словарями в DSL-формате и подключали их к GoldenDict (к платной или бесплатной версии). А если у пользователя на гаджете не было приложения GoldenDict, то наши приложения скачивали бесплатную версию этой оболочки для электронных словарей и подключали необходимые словари. Например, марийско-русский словарь.
Но с недавнего времени в Google Play перестали размещаться приложения сделанные таким образом, например, нанайско-русский и русско-нанайские электронные словари.
Пытаться приспособить наши словари к приложениям типа ColorDict нет смысла, вдруг опять поменяются правила. Выход один: перегнать наши словари в XML или JSON. Вот тут собственно в XML-формате русско-нанайский и нанайско-русский словари.
Теперь дело осталось за малым: написать свою оболочку для электронных словарей и разместить её в Google Play...