Корпуса коми-зырянского языка


Вы находитесь на общей стартовой странице корпусов коми-зырянского языка: основного корпуса литературного коми-зырянского (в настоящий момент состоит из прессы) и корпуса коми-зырянских соцсетей.

Подробнее К основному корпусу К корпусу соцсетей

Корпуса коми-зырянского языка

Включить/выключить меню

Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса коми-зырянского языка. В настоящий момент доступны два корпуса: корпус современного литературного коми-зырянского («основной корпус») и корпус коми-зырянских соцсетей. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:

Основной корпус Корпус соцсетей
Язык коми коми и русский
Размер 1,76 миллионов словоупотреблений 1,85 миллионов словоупотреблений (коми часть)
18,98 миллионов словоупотреблений (русская часть)
Тексты современная пресса (до февраля 2019 г.) открытые посты и комментарии комиязычных пользователей Вконтакте (до декабря 2018 г.)
Регистр языка в большинстве случаев нормативный письменный литературный коми-зырянский или близкий к нему язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов
Разметка
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 92,2% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, несколько словообразовательных суффиксов
  • глоссирование
  • переводы лемм на русский язык
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 89,1% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, несколько словообразовательных суффиксов
  • глоссирование
  • переводы лемм на русский язык
Метаданные
  • название текста
  • автор или название издания
  • год создания (точная дата в случае газет)
  • жанр
  • название группы (для групп)
  • открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет); имена и ники пользователей скрыты
  • год написания
  • тип записи (пост/комментарий)
  • язык (определяется автоматически отдельно для каждого предложения)

Кроме представленных здесь корпусов, существует ещё как минимум один письменный коми корпус, созданный командой FU-Lab. Он содержит более 40 миллионов словоупотреблений художественной литературы и имеет встроенный морфологический анализатор (без поиска по морфологии и лемме). Кроме того, существуют устный корпус проекта Коми медиатека тех же авторов и устный корпус печорского диалекта, собранный московскими экспедициями.

Более подробную информацию о содержании коми-зырянского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:

Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах коми-зырянского языка.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова кань перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого коми-зырянского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет коми языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём, например, здесь.

— Что такое морфологическая разметка и как она сделана?

В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание коми-зырянского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на битбакете. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму воӧ, анализатор не может понять, является ли это формой посессива 1 л. ед. ч. от слова во («мой год»), формой иллатива от того же слова («в год») или вообще формой глагола воны «приходить». Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.

Коми язык

Коми-зырянский — один из двух литературных вариантов диалектного континуума коми. Коми язык, наряду с удмуртским, относится к пермской группе уральских языков. Число носителей коми-зырянского, согласно последней переписи, составляет около 150 тыс. человек. Коми использует орфографию, основанную на кириллице, с двумя дополнительными символами. Почти все морфологические категории выражаются суффиксально и в основном агглютинативно. Именные грамматические категории включают число, падеж и посессивность. Прямое дополнение маркируется номинативом или аккузативом (дифференциальное маркирование). Порядок слов в предложении свободный, по умолчанию — SVO (подлежащее – глагол – прямое дополнение).

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для коми-зырянского языка в алфавитном порядке с расшифровкой. Набор тэгов в обоих корпусах одинаков.

  • A — прилагательное
  • APRO — местоимение-прилагательное
  • ADV — наречие
  • ADVPRO — местоимение-наречие
  • CONJ — союз
  • IMIT — идеофон (изобразительное слово)
  • INTRJ — междометие
  • N — существительное
  • NUM — числительное
  • PARENTH — вводное слово
  • PART — частица
  • PN — имя собственное (подтип существительного)
  • POST — послелог
  • PREDIC — предикатив
  • PRO — местоимение
  • V — глагол
  • 1 — 1 лицо
  • 1pl — притяжательный суффикс 1 л. мн. ч.
  • 1sg — притяжательный суффикс 1 л. ед. ч.
  • 2 — 2 лицо
  • 2pl — притяжательный суффикс 2 л. мн. ч.
  • 2sg — притяжательный суффикс 2 л. ед. ч.
  • 3 — 3 лицо
  • 3pl — притяжательный суффикс 3 л. мн. ч.
  • 3sg — притяжательный суффикс 3 л. ед. ч.
  • abbr — аббревиатура
  • abl — аблатив
  • acc — аккузатив
  • anim — одушевлённое существительное
  • app — аппроксиматив
  • atten — уменьшительная деривация (-ышт-)
  • attr — любой атрибутив
  • attr_a — общий атрибутив на
  • attr_loc — местный атрибутив на -са
  • body — часть тела
  • car — каритив
  • card — порядковое числительное
  • case_comp — двойное падежное маркирование
  • caus — каузатив (-ӧд-)
  • cns — консекутив (достигательный падеж, -ла)
  • coll — собирательное числительное
  • com — комитатив
  • comp — компаратив (-джык)
  • cvb.gen — общее деепричастие (-иг)
  • cvb.lim — достигательное деепричастие (-тӧдз)
  • cvb.mon — деепричастие на -мӧн
  • cvb.neg — отрицательное деепричастие (-тӧг)
  • cvb.sim — деепричастие одновременности (-ӧмӧн)
  • dat — датив
  • delim — ограничительная деривация (-л-)
  • dem — указательное местоимение
  • distr — дистрибутивное числительное
  • egr — эгрессив
  • el — элатив
  • famn — фамилия
  • fut — будущее время
  • gen — генитив
  • hum — существительное, означающее человека
  • ill — иллатив
  • imp — императив
  • impers — безличный глагол (разметка неполная)
  • indef — неопределённое местоимение
  • inf — инфинитив
  • ins — творительный падеж
  • intr — непереходный глагол (разметка неполная)
  • iter — итератив (-ав-)
  • loc — локатив/инэссив
  • missp — опечатка или ошибка в орфографии
  • neg — отрицательная форма
  • neg_attr — отрицательный атрибутив
  • nmlz — номинализация на -ӧм
  • nmlz_in — локативная номинализация на -ин
  • nmlz_lun — абстрактное существительное на -лун
  • nmlz_tor — абстрактное существительное на -тор
  • nom — номинатив
  • oblin — облинатив (прилагательное на -ӧсь)
  • ord — порядковое числительное
  • pass — пассив
  • pass_sjy — пассив (-сьы-)
  • pass_ysj — пассив (-ысь-)
  • patrn — отчество
  • period — числительное на -пӧрйӧ
  • pers — личное местоимение
  • persn — личное имя
  • pl — множественное число
  • pr — падеж на -ся
  • prol — пролатив
  • prs — настоящее время
  • pst — первое прошедшее время
  • pst2 — второе (неочевидное) прошедшее время
  • ptcp.act — действительное причастие
  • ptcp.neg — отрицательное причастие
  • refl — возвратное местоимение
  • rel_adj — реляционное прилагательное
  • rel_n — реляционное имя (изменяемый послелог)
  • rus — заимствование из русского или через русский
  • rus_afx — русский аффикс при незаимствованном корне
  • sg — единственное число
  • short — краткая форма личного местоимения
  • supernat — существительное, означающее сверхъестественное существоТакая категория неизбежно возникает при классификации по одушевлённости/личности. Поскольку непонятно, классифицировать ли такие случаи как существительные, обозначающие людей, мы вводим для них отдельную категорию, оставляя таким образом пользователю возможность выбора.
  • term — терминатив
  • time_meas — единица измерения времени
  • tr — переходный глагол (разметка неполная)
  • topn — топоним
  • transport — транспорт
  • vn — отглагольное имя на -ан

Набор тэгов для русского языка (в русских предложениях корпуса соцсетей) можно посмотреть на сайте Национального корпуса русского языка.

Авторы

Разработкой этих корпусов занимается Тимофей Архангельский в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Первая версия корпуса была создана зимой 2019 года, работа над над ним продолжается. Корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.

Контакты


Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусене считая опечаток в блогах и соцсетях: эти тексты специально оставляются в исходном виде, пожалуйста, напишите об этом Тимофею Архангельскому. Кроме того, Вы можете использовать по своему усмотрению свободно распространяемые коми-зырянский морфологический анализатор и корпусную платформу tsakorpus.