В Сыктывкаре представили коми-русский электронный словарь

10 января Межрегиональная лаборатория информационной поддержки функционирования финно-угорских языков при Коми республиканской академии государственной службы и управления (г. Сыктывкар) представила свой новый продукт — коми-русский электронный словарь.

Словарь подготовлен в рамках совместного проекта с университетом города Тромсё «Информационная инфраструктура языков коренных народов Европейского Севера» при финансовой поддержке Министерства национальной политики Республики Коми. Университет города Тромсё (Норвегия) стал одним из первых, кто откликнулся и поддержал новый проект.

Программа, заявленная еще осенью прошлого года, базируется «на трех китах»: словаре, морфоанализаторе и корпусе текстов. При полной и глубокой разработке данных условий язык будет функционировать в полную силу в Интернете и электронных программах.

Реализует столь сложный проект команда единомышленников. Это руководитель лаборатории Марина Федина и Алексей Иванов из Республики Коми, Андрей Чемышев из Марий Эл, Öньö Лав (Вячеслав Степанов) из Пермского края, ученый-лингвист из Финляндии Джек Рютер и профессор университета города Тромсе Тронд Тростеруд.

На презентации каждый из них продемонстрировал свое направление работы над проектом. Джек Рютер представил коми-русский словарь как собрание лексем, а также словарь переводов коми слов на английский и финский. Тронд Тростеруд объяснил действие морфоанализатора и коснулся проблемной темы раскладки клавиатуры в разных языках. Он отметил, что создание клавиатуры для коми языка – не проблема, в отличие от других языков, в алфавитах которых есть свои оригинальные буквы.

Ученый-полиглот Öньö Лав подробно рассказал о работе над корпусами текстов. Данная подпрограмма позволяет найти введенное пользователем слово в различных текстах, понять, в каком значении оно применяется, и проследить частоту употребления в языке данного слова. Кроме того, с помощью этой подпрограммы можно будет сортировать слова как по алфавиту, так и по частоте употребления. Корпус текста действует как словарная база для формирования толкового и морфологического словарей. Öньö Лав в создании корпусов текста уже имеет большой опыт. За 8 лет кропотливой работы им сформирована огромная электронная база слов коми-пермяцкого языка.

Единственная на сегодняшний день проблема, которую выделил Öньö Лав, это мизерный запас коми текстов в электронном формате. Он призвал объединить усилия в пополнении электронного архива текстов. Филиал ГРДНТ «Финно-угорский культурный центр Российской Федерации» откликнулся на просьбу лингвиста. Как отмечает руководитель ФУКЦ РФ Татьяна Барахова, «Центр готов предоставить для дальнейшей работы свое собрание коми текстов в электронном варианте».

Андрей Чемышев продемонстрировал возможности сканирования коми текста с помощью усовершенствованной им программы ABBYY FineReader. Андрей ввел в список поддерживаемых программой словарей отдельные коми-зырянский и коми-пермяцкий словари. Это позволяет сканировать коми тексты без каких-либо искажений. Сотрудники лаборатории обратятся к правообладателям программы ABBYY FineReader с просьбой официально внести коми-зырянский и коми-пермяцкий словари в список поддерживаемых.

Коми-русский электронный словарь, включающий в себя на сегодняшний день 15 тысяч понятий, уже доступен в Интернете. С ним можно познакомиться на лингвистическом сайте giellatekno.uit.no. В планах лаборатории запланированы обучающие курсы по пользованию новыми программами, разработанными в рамках данного большого проекта.

Осталось подчеркнуть, что все продукты, выпущенные Межрегиональной лабораторией информационной поддержки функционирования финно-угорских языков при Коми республиканской академии государственной службы и управления, находятся под свободной лицензией.

Ольга Худяева

Источник: ИЦ «Финноугория»

9 комментариев

Filed under Статьи

9 responses to “В Сыктывкаре представили коми-русский электронный словарь

  1. У-У-У

    Если в проекте появился Андрей Чемышев, то это верный знак того, что проект заглохнет, а хорошая идея превратится в говно.

    • Михаил С.

      интересно почему? у нас вроде и так некому проектами заниматься программистов ноль, а Андрей находит время хотя бы для этого. Тебе самому то охото было бы возиться с С++ системой какие то темы поднимать? Вы тут собрались пиздеть, а сами нихуя не делаете. Человеку и на том спасибо, что после основной работы заполночь какие то словари мутит и в агенте горит весь день.

    • Хилеев

      Что-то проекту №2 даже утешительный приз не дали (из 12 проектов): http://www.marimedia.ru/useful_info/article/747/
      Вот, видать, где полное г…

    • Аноним

      У-У-У в чем то-то прав. За что бы не брался Чемышев — все проекты стоят. .mari-el.name был создан по заказу администрации Маркелова, как альтернатива mari.ee — MariUver-у перед VIII съездом мари, изначально даже имя было «Марий Эл Увер», перестали финансировать — остановилось. Мер Ой был в рамках того же проекта — стоит. Увер Йолва — стоит. Многочисленные сайты marisong и Марий Эл радио тоже не развиваются. 10-томник и он-лайн версия, пиарили кричали, а конечный результат — он-лайн словарьи толком не работают http://www.dict.marlamuter.ru/ У Килеева этоти же словари работают: http://www.marlamuter.org/muter/
      Потом Килеев устроил конфликт с Андреем и его командой в марийской Википедии — всех разогнали, команда Андрея победила, но никто в Википедии сейчас не работает. Вот результаты деятельности Андрея и его соперника У-У-У — Килеева.

  2. Tsikma

    Пиш яжо. Андрей пуры пӓшӓм ӹштӓ.

  3. Halan

    Молодцы! Речь, по контексту можно понять, видимо идет не о словаре, а о машинном переводчике. Если так, то великое дело свершили.
    О включении в продукт ABBYY коми языков. А в свободные аналоги не пробовали включать?

  4. Никитин С.П.

    Андрей ищет себя в разных направлениях. Насколько знаю, он в marisong, помогает молодым исполнителям, в Марийской Википедии. И вот, он вышел на финноугорский, на международный уровень. Хорошо! А если, и у него бывают промахи, что-ж, творческий человек не застрахован от ошибок.Главное, что растет мариец — Профессионал в перспективной современной отрасли.

Добавить комментарий