10 января Межрегиональная лаборатория информационной поддержки функционирования финно-угорских языков при Коми республиканской академии государственной службы и управления (г. Сыктывкар) представила свой новый продукт – коми-русский электронный словарь.
Словарь подготовлен в рамках совместного проекта с университетом города Тромсё “Информационная инфраструктура языков коренных народов Европейского Севера” при финансовой поддержке Министерства национальной политики Республики Коми. Университет города Тромсё (Норвегия) стал одним из первых, кто откликнулся и поддержал новый проект.
Программа, заявленная еще осенью прошлого года, базируется “на трех китах”: словаре, морфоанализаторе и корпусе текстов. При полной и глубокой разработке данных условий язык будет функционировать в полную силу в Интернете и электронных программах.
Реализует столь сложный проект команда единомышленников. Это руководитель лаборатории Марина Федина и Алексей Иванов из Республики Коми, Андрей Чемышев из Марий Эл, Öньö Лав (Вячеслав Степанов) из Пермского края, ученый-лингвист из Финляндии Джек Рютер и профессор университета города Тромсе Тронд Тростеруд.
На презентации каждый из них продемонстрировал свое направление работы над проектом. Джек Рютер представил коми-русский словарь как собрание лексем, а также словарь переводов коми слов на английский и финский. Тронд Тростеруд объяснил действие морфоанализатора и коснулся проблемной темы раскладки клавиатуры в разных языках. Он отметил, что создание клавиатуры для коми языка – не проблема, в отличие от других языков, в алфавитах которых есть свои оригинальные буквы.
Ученый-полиглот Öньö Лав подробно рассказал о работе над корпусами текстов. Данная подпрограмма позволяет найти введенное пользователем слово в различных текстах, понять, в каком значении оно применяется, и проследить частоту употребления в языке данного слова. Кроме того, с помощью этой подпрограммы можно будет сортировать слова как по алфавиту, так и по частоте употребления. Корпус текста действует как словарная база для формирования толкового и морфологического словарей. Öньö Лав в создании корпусов текста уже имеет большой опыт. За 8 лет кропотливой работы им сформирована огромная электронная база слов коми-пермяцкого языка.
Единственная на сегодняшний день проблема, которую выделил Öньö Лав, это мизерный запас коми текстов в электронном формате. Он призвал объединить усилия в пополнении электронного архива текстов. Филиал ГРДНТ “Финно-угорский культурный центр Российской Федерации” откликнулся на просьбу лингвиста. Как отмечает руководитель ФУКЦ РФ Татьяна Барахова, “Центр готов предоставить для дальнейшей работы свое собрание коми текстов в электронном варианте”.
Андрей Чемышев продемонстрировал возможности сканирования коми текста с помощью усовершенствованной им программы ABBYY FineReader. Андрей ввел в список поддерживаемых программой словарей отдельные коми-зырянский и коми-пермяцкий словари. Это позволяет сканировать коми тексты без каких-либо искажений. Сотрудники лаборатории обратятся к правообладателям программы ABBYY FineReader с просьбой официально внести коми-зырянский и коми-пермяцкий словари в список поддерживаемых.
Коми-русский электронный словарь, включающий в себя на сегодняшний день 15 тысяч понятий, уже доступен в Интернете. С ним можно познакомиться на лингвистическом сайте giellatekno.uit.no. В планах лаборатории запланированы обучающие курсы по пользованию новыми программами, разработанными в рамках данного большого проекта.
Осталось подчеркнуть, что все продукты, выпущенные Межрегиональной лабораторией информационной поддержки функционирования финно-угорских языков при Коми республиканской академии государственной службы и управления, находятся под свободной лицензией.
Ольга Худяева
Источник: ИЦ “Финноугория”
Если в проекте появился Андрей Чемышев, то это верный знак того, что проект заглохнет, а хорошая идея превратится в говно.
интересно почему? у нас вроде и так некому проектами заниматься программистов ноль, а Андрей находит время хотя бы для этого. Тебе самому то охото было бы возиться с С++ системой какие то темы поднимать? Вы тут собрались пиздеть, а сами нихуя не делаете. Человеку и на том спасибо, что после основной работы заполночь какие то словари мутит и в агенте горит весь день.
Что-то проекту №2 даже утешительный приз не дали (из 12 проектов): http://www.marimedia.ru/useful_info/article/747/
Вот, видать, где полное г…
У-У-У в чем то-то прав. За что бы не брался Чемышев – все проекты стоят. .mari-el.name был создан по заказу администрации Маркелова, как альтернатива mari.ee – MariUver-у перед VIII съездом мари, изначально даже имя было “Марий Эл Увер”, перестали финансировать – остановилось. Мер Ой был в рамках того же проекта – стоит. Увер Йолва – стоит. Многочисленные сайты marisong и Марий Эл радио тоже не развиваются. 10-томник и он-лайн версия, пиарили кричали, а конечный результат – он-лайн словарьи толком не работают http://www.dict.marlamuter.ru/ У Килеева этоти же словари работают: http://www.marlamuter.org/muter/
Потом Килеев устроил конфликт с Андреем и его командой в марийской Википедии – всех разогнали, команда Андрея победила, но никто в Википедии сейчас не работает. Вот результаты деятельности Андрея и его соперника У-У-У – Килеева.
У-У-У – это и есть Килеев…
Пиш яжо. Андрей пуры пӓшӓм ӹштӓ.
Шäлä Валери!
Молодцы! Речь, по контексту можно понять, видимо идет не о словаре, а о машинном переводчике. Если так, то великое дело свершили.
О включении в продукт ABBYY коми языков. А в свободные аналоги не пробовали включать?
Андрей ищет себя в разных направлениях. Насколько знаю, он в marisong, помогает молодым исполнителям, в Марийской Википедии. И вот, он вышел на финноугорский, на международный уровень. Хорошо! А если, и у него бывают промахи, что-ж, творческий человек не застрахован от ошибок.Главное, что растет мариец – Профессионал в перспективной современной отрасли.