• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка
Фото: Wikimedia Commons

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.

Ульяна Петрунина

«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

Нина Здорова

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Вам также может быть интересно:

НИУ ВШЭ и Университет Султана Кабуса: расширение научно-образовательного партнерства

В мае 2026 года Высшую школу экономики с официальным визитом посетила делегация Университета Султана Кабуса (Оман). Главной целью встречи стало обсуждение новых форм сотрудничества и партнерства, уточнение сфер взаимного интереса. Представители московского, петербургского и нижегородского кампусов Вышки говорили о взаимной заинтересованности в расширении совместных проектов прежде всего в сфере искусственного интеллекта — приоритетной области развития для обоих университетов.

НИУ ВШЭ и Пекинский университет расширяют сотрудничество в исследовании гражданского общества

Семинар с участием российских и китайских ученых, посвященный взаимодействию государства и НКО, состоялся в Пекине. Участники обсудили эволюцию институтов, практики сотрудничества и вызовы развития некоммерческого сектора, а также представили результаты исследований. Итогом встречи стали договоренности о расширении совместных проектов и академических обменов.

В НИУ ВШЭ — Санкт-Петербург завершился «академический аналог ПМЭФ»

С 18 по 22 мая питерская Вышка стала центром глобального академического диалога. В Международной партнерской неделе — стратегическом мероприятии НИУ ВШЭ, которое проводится в Северной столице третий год, — приняли участие более 100 делегатов из 45 университетов и 20 стран мира. Они поделились своими впечатлениями о форуме и Вышке.

Международная исследовательская сеть лабораторий по социальному предпринимательству расширилась до семи стран

В рамках Международной партнерской недели НИУ ВШЭ в Санкт‑Петербурге участники консорциума по социальному предпринимательству подписали расширенный манифест о сотрудничестве в сфере устойчивого развития, подвели итоги первого года работы и приняли в свои ряды кампус Лимы Университета Пиуры (Перу).

Образовательный марафон для учителей: как ФКН ВШЭ выстраивает диалог с педагогами

В рамках фестиваля «Дни компьютерных наук» ФКН НИУ ВШЭ на базе учебного центра «Вороново» прошел первый Образовательный марафон для учителей информатики и математики. Всего в мероприятии приняли участие 76 педагогов, представлявших разные регионы России, а также участники из Витебска (Беларусь) и Вьентьяна (Лаос).

Точка входа в ИИ: на ЦИПР обсудили влияние технологий на будущее

Участники ЦИПР-2026 обсудили, как офисные приложения могут стать точкой массового доступа к ИИ и снизить барьеры использования. Эксперты сошлись во мнении, что будущее — за адаптивными моделями и экосистемным подходом к корпоративным данным. В экспертных дискуссиях приняли участие представители НИУ ВШЭ.

Творческая работа как лекарство от выгорания

Творческая и доброжелательная атмосфера, новые методы в Международной лаборатории (впоследствии центре) социокультурных исследований привлекают молодых исследователей. За годы работы в Вышке они становятся учеными и преподавателями, известными в России и за рубежом. О своем пути в центре и в Вышке, исследованиях и роли наставников в научных успехах рассказали главный научный сотрудник ЦСКИ Зарина Лепшокова и ведущий научный сотрудник Екатерина Бушина.

«Входить в сферу робототехники сейчас — значит расти вместе с направлением»

Беспилотный транспорт, роботы-курьеры и умные колонки стремительно становятся частью нашей жизни. В 2026 году факультет компьютерных наук НИУ ВШЭ открывает новый бакалавриат«Проектирование интеллектуальных робототехнических систем» (ПИРС). Здесь будут готовить специалистов на стыке ИТ, искусственного интеллекта и робототехники. О том, как устроена учеба и почему выпускников программы «точно возьмут в будущее», рассказывает академический руководитель ПИРС Вадим Моргачёв. 

Технодень МИЭМ на Покровке: совместно исследуем инженерный код Вышки

26 мая в центральном атриуме корпуса на Покровском бульваре, 11, пройдет традиционный масштабный фестиваль инженерных разработок проектных команд Московского института электроники и математики (МИЭМ) ВШЭ. В программе — презентации лучших студенческих технологических проектов, стенды дружественных компаний и совместных мастерских, лекторий с участием практикующих инженеров, круглый стол о развитии инженерного образования и представление магистерских программ МИЭМ.

НИУ ВШЭ представит цифровые проекты на ЦИПР-2026

В Нижнем Новгороде стартовала крупнейшая конференция по цифровой трансформации базовых секторов промышленности ЦИПР-2026. В ее работе участвуют премьер-министр Михаил Мишустин, члены правительства, губернаторы, главы компаний, ученые. НИУ ВШЭ в этом году стал официальным партнером конференции. Проректор Елена Одоевская и другие представители университета примут участие в экспертных сессиях, подпишут ряд соглашений, а на стенде ВШЭ будут презентованы цифровые разработки.