Корпуса коми-зырянского языка
Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса коми-зырянского языка. В настоящий момент доступны два корпуса: корпус современного литературного коми-зырянского («основной корпус») и корпус коми-зырянских соцсетей. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:
|
Основной корпус |
Корпус соцсетей |
Язык |
коми |
коми и русский |
Размер |
1,76 миллионов словоупотреблений |
1,85 миллионов словоупотреблений (коми часть) 18,98 миллионов словоупотреблений (русская часть) |
Тексты |
современная пресса (до февраля 2019 г.) |
открытые посты и комментарии комиязычных пользователей Вконтакте (до декабря 2018 г.) |
Регистр языка |
в большинстве случаев нормативный письменный литературный коми-зырянский или близкий к нему |
язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов |
Разметка |
- автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 92,2% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
- омонимия не снималась
- разметка русских заимствований
- разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, несколько словообразовательных суффиксов
- глоссирование
- переводы лемм на русский язык
|
- автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 89,1% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
- омонимия не снималась
- разметка русских заимствований
- разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, несколько словообразовательных суффиксов
- глоссирование
- переводы лемм на русский язык
|
Метаданные |
- название текста
- автор или название издания
- год создания (точная дата в случае газет)
- жанр
|
- название группы (для групп)
- открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет); имена и ники пользователей скрыты
- год написания
- тип записи (пост/комментарий)
- язык (определяется автоматически отдельно для каждого предложения)
|
Кроме представленных здесь корпусов, существует ещё как минимум один письменный коми корпус, созданный командой FU-Lab. Он содержит более 40 миллионов словоупотреблений художественной литературы и имеет встроенный морфологический анализатор (без поиска по морфологии и лемме). Кроме того, существуют устный корпус проекта Коми медиатека тех же авторов и устный корпус печорского диалекта, собранный московскими экспедициями.
Более подробную информацию о содержании коми-зырянского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:
Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.
Что такое корпус?
Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах коми-зырянского языка.
— Кому нужны корпуса?
В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова кань перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.
— Можно ли использовать корпус как библиотеку?
Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.
— Можно ли использовать корпус как словарь?
У каждого коми-зырянского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет коми языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём, например, здесь.
— Что такое морфологическая разметка и как она сделана?
В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание коми-зырянского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на битбакете. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму воӧ, анализатор не может понять, является ли это формой посессива 1 л. ед. ч. от слова во («мой год»), формой иллатива от того же слова («в год») или вообще формой глагола воны «приходить». Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.
Коми язык
Коми-зырянский — один из двух литературных вариантов диалектного континуума коми. Коми язык, наряду с удмуртским, относится к пермской группе уральских языков. Число носителей коми-зырянского, согласно последней переписи, составляет около 150 тыс. человек. Коми использует орфографию, основанную на кириллице, с двумя дополнительными символами. Почти все морфологические категории выражаются суффиксально и в основном агглютинативно. Именные грамматические категории включают число, падеж и посессивность. Прямое дополнение маркируется номинативом или аккузативом (дифференциальное маркирование). Порядок слов в предложении свободный, по умолчанию — SVO (подлежащее – глагол – прямое дополнение).