Расширение цифрового инструментария лингвиста: потенциал ИИ-агентов для обработки языковых данных - Журнал «Наука в мегаполисе Science in the Megapolis»

: Выпуск: №7(89) КОД науки - исследования молодых ученых; Раздел: Технические науки и искусственный интеллект; Опубликовано: 01 июня 2026

: Код уникальной десятичной классификации: 81’42:004.8

: Автор: Соловьева Мария Сергеевна; магистрант 1 курса, Московский городской педагогический университет (МГПУ), г. Москва, e-mail: SolovevaMS152@mgpu.ru

: Научный руководитель: Тивьяева Ирина Владимировна; заместитель директора Института иностранных языков Московского городского педагогического университета (МГПУ); доктор филологических наук, доцент

Аннотация. Цифровизация гуманитарных наук, в том числе лингвистики, актуализирует проблему методологической адаптации исследовательского инструментария к возможностям и ограничениям больших языковых моделей и агентных систем. В настоящей работе представлен опыт применения платформы по созданию виртуальных агентов в образовании для решения лингвистических задач: аккумулирования научной информации, типологизации языковых данных и формирования эмпирической базы исследования на материале художественных текстов. Экспериментальная работа по трем указанным направлениям показала относительно высокий потенциал ИИ-агентов при решении репродуктивных и поисковых задач в рамках лингвистического исследования, однако при выполнении аналитических операций, требующих интеграции теоретических положений с эмпирическим материалом, возможности ИИ-агентов ограничены. Перспективы дальнейших исследований связаны с развитием новой методологии лингвистических исследований, соответствующей реалиям цифровой среды, в целом, и с разработкой методических рекомендаций по обучению ИИ-агентов для решения лингвистических задач аналитического характера в частности.

Ключевые слова: методология лингвистических исследований, ИИ-агент, ИИ-персона, виртуальный агент, большая языковая модель, LLM, генерация текста, промпт-инжиниринг.

Цифровая трансформация в науке привела к появлению нового исследовательского направления в гуманитарных науках, известного как Digital Humanities. Лингвистика в этом отношении не стала исключением. Цифровизация в лингвистических исследованиях, обусловленная экспансией технологий автоматической генерации текста, актуализирует необходимость пересмотра теоретико-методологического аппарата науки о языке [14]. В настоящее время исследовательские возможности в данной области определяются применением больших языковых моделей (далее LLM), что находит отражение в появлении инновационных исследований, посвященных анализу структуры и семантики промптов как особых речевых жанров, изучению форм коммуникации между человеком и машиной, разработке новых методов количественной оценки антропогенных и сгенерированных текстов, а также процедур сопоставительного корпусного анализа, позволяющих выявлять устойчивые паттерны искусственного текстопорождения в контрасте с естественной речевой деятельностью [4], [5, с. 9-11].

Дополнительными факторами, влияющими на эффективность применения LLM, выступают проблемы доверия, включающие как чрезмерное некритическое принятие результатов пользователем, так и недоверие к технологии, обусловленное ее сложностью и внешним информационным контекстом [19, с. 128-129].

В настоящий момент в практике применения LLM наблюдается тенденция перехода от генеративных моделей к агентным системам, что обусловлено не столько развитием промпт-инжиниринга, сколько появлением моделей нового поколения, способных к глубокому рассуждению [16]. В современной научной литературе, как отечественной, так и зарубежной, проблематика ИИ-агентов представлена фрагментарно. Отсутствует и общепринятая дефиниция данного явления, что возможно объяснить отставанием терминологического аппарата от практики появления новых инструментов и ресурсов. В связи с наличием лакуны в соответствующей терминосфере в настоящем исследовании под ИИ-агентом мы будем понимать автономную систему, использующую большую языковую модель в качестве когнитивного контроллера, которая в замкнутом цикле воспринимает среду, обновляет внутреннюю память, планирует действия с возможностью рефлексии и выполняет их через внешние инструменты, целенаправленно изменяя состояние среды для достижения поставленной задачи.

В настоящее время исследователи активно изучают потенциал ИИ-агентов в процессах принятия решений в области здравоохранения, управления цепочками поставок и автоматизации бизнес-процессов. Несмотря на поражающие функциональные возможности агентных систем, отмечается необходимость в разработке надежных систем управления, межотраслевого сотрудничества и междисциплинарных исследований в области этики. [8], [9], [18]. В качестве одного из новых подходов к разрешению перечисленных выше проблем, характерных как для использования больших языковых моделей, так и для применения ИИ-агентов в лингвистических исследованиях, предлагается унификация принципов взаимодействия исследователя с ИИ-агентом и с большой языковой моделью (см. труды М. Хади, И.В. Тивьяевой и др. [17, с. 17], [13, с. 209-210], [11]).

В практической плоскости оценка качества ответов ИИ-агента предполагает формирование тестового набора из 8-10 промптов на каждый функциональный блок cистемы, составляемых на основании частых пользовательских запросов в различных стилях несколькими авторами для повышения статистической значимости и исключения предвзятости. Для количественной оценки используются метрики корректности (доля корректных ответов), ошибок (доля некорректных ответов), полноты ответов (доля содержащих исчерпывающую информацию) и среднего времени ответа. [3, с. 320-322].

Отсутствие возможности представить в работе систематический обзор подходов к изучению ИИ-агентов в лингвистике обусловлено фрагментарным характером научных публикаций в данной области, где только формируется единый исследовательский вектор, а терминологический и методологический контур очерчен лишь пунктирно (см., например, работы Р.Е. Тельпова, С.В. Ларциной, Е.В. Фигура Е.В.). [10], [15].

Рассмотрим возможности ИИ-агентов для целей решения прикладных лингвистических задач. В качестве примера используем «ИИ-платформу по созданию виртуальных агентов в образовании» [2]. Данный сервис предоставляет пользователю возможность взаимодействия с чат-ботами на основе искусственного интеллекта, а также создания собственных ИИ-агентов («виртуальных агентов», «ИИ-персон») с загрузкой вспомогательных текстовых материалов для их обучения и функционирования. Вышеуказанная платформа была выбрана нами для оценки потенциала ИИ-агентов в лингвистическом исследовании на основании заявленной функциональности моделей.

В настоящей работе выдвигается гипотеза о том, что ИИ-агент, обученный на загружаемых пользователем текстовых материалах, способен оперативно адаптироваться к предметной области и демонстрировать эффективность при выполнении трех типов задач: репродуктивных (воспроизведение загруженной информации с указанием библиографических источников), классификационно-аналитических (обобщение, структурирование и систематизация материала) и поисково-аналитических (идентификация и анализ языковых явлений в корпусе художественных текстов). Проверка данной гипотезы осуществляется в ходе экспериментального взаимодействия с ИИ-агентом после предварительного изучения пользовательского соглашения [6] и «Руководства пользователя» [7].

В рамках настоящего исследования было организовано взаимодействие с ИИ-агентом по трем направлениям, каждое из которых предполагало решение задач, различающихся по степени сложности и характеру требуемых когнитивных операций:

Оценка способности ИИ-агента к воспроизведению загруженной информации с указанием библиографических источников.
Оценка способности ИИ-агента к обобщению, структурированию и классификации представленных материалов, а также к формулированию самостоятельных заключений на основе загруженной информации.
Оценка способности ИИ-агента к идентификации конкретных языковых явлений в корпусе художественных текстов с последующим их анализом, включая репродуктивные, поисковые и аналитические операции.

Рассмотрим взаимодействие с ИИ-агентом в рамках каждого направления отдельно.

Первое направление работы с ИИ-агентом было связано с аккумулированием информации из библиографии, составленной к исследованию «Анализ стратегий англо-русского перевода нарративных структур с нарушением пространственно-временного континуума». Обучение агента осуществлялось посредством подбора библиографических источников, формирования текстов научных работ в файл формата .doc и последующей загрузки файла на платформу. В разделе «Позиционная модель / Промпт» была задана инструкция, согласно которой агент должен был указывать источники определений, классификаций и примеров с максимальной точностью, а в случае невозможности идентифицировать источник – предоставлять отказ.

При направлении запросов на определение терминов с требованием указать источник ИИ-агент предоставлял корректные с точки зрения содержания дефиниции, однако сопровождал их некорректными ссылками на источники. В ответ на уточняющий вопрос о причинах невозможности корректного указания источника и о требуемом формате представления текста и библиографических данных в загружаемой базе знаний ИИ-агент направил пример оформления источников:

{
"term_id": "T_001",
"term": "переводческие компенсации",
"definition": " грамматические трансформации
при переводе, включающие добавления (по синтаксическим и
лексическим причинам), опущение (исключение из перевода ин
формации, избыточной с точки зрения переводчика и языка перевода), сочетание приемов добавления и опущения.",
"source": {
"author": "Нелюбин Л.Л.",
"work": "Толковый переводческий словарь",
"edition": "3-е изд., перераб.",
"location": "М.: Флинта: Наука",
"year": "2003",
"page": "151"
},
"context_quote": "Прием компенсации применяется, когда..."
}

С учетом значительного объема загруженной информации было принято решение не осуществлять переформатирование источников в соответствии с выявленными требованиями, поскольку данная операция потребовала бы существенных временных затрат.

Второе направление взаимодействия с ИИ-агентом было ориентировано на уточнение видов маркеров разрыва пространственно-временного континуума (см. подробнее «Роль видо-временных форм глагола в реализации категории ретроспекции в художественном тексте» за авторством И.В. Тивьяевой [12]), что представляло собой более сложную задачу. Обучение ИИ-агента осуществлялось аналогично обучению в рамках первого направления.

Первоначальный запрос, направленный ИИ-агенту, позволил получить корректное определение понятия маркеров разрыва пространственно-временного континуума, однако примеры, приведенные для одного из выделяемых видов маркеров, оказались некорректными с точки зрения принятой в исследуемом материале классификации. В целях устранения данного недостатка был обновлен загруженный файл базы знаний: в него была добавлена более подробная и структурированная информация о стилистических маркерах указанного типа, после чего произведена повторная загрузка файла для переобучения ИИ-агента.

После обновления базы знаний был направлен идентичный запрос об уточнении видов маркеров разрыва пространственно-временного континуума. Полученный ответ содержал корректное определение, а также ряд примеров, среди которых присутствовали как корректные, так и некорректные.

Анализ данного эпизода взаимодействия позволяет выдвинуть следующее предположение о принципах функционирования ИИ-агента в рамках исследуемой платформы. Несмотря на обновление базы знаний и, предположительно, завершение процесса обучения, агент в значительной степени продолжает опираться на общие знания, заложенные в базовой языковой модели (DeepSeek), и не полагается исключительно на материалы, представленные пользователем. Данная особенность приводит к тому, что, даже при условии загрузки релевантной и структурированной информации, ответы ИИ-агента могут содержать элементы, не соответствующие загруженному массиву текстов, что снижает его потенциал как источника достоверных верифицируемых данных.

Третье направление взаимодействия с ИИ-агентом было ориентировано на сбор эмпирического материала для исследования на тему «Анализ стратегий англо-русского перевода нарративных структур с нарушением пространственно-временного континуума».

Для данного этапа исследования были отобраны два современных англоязычных романа («Щегол» Донны Тартт и «11/22/63» Стивена Кинга), а также тексты их переводов на русский язык, которые использовались в качества материала для обучения ИИ-агента. В разделе «Позиционная модель / Промпт» была задана инструкция, согласно которой ИИ-агент «любит анализировать книги «Щегол» и «11/22/63», поскольку имеет доступ к текстам оригиналов (английский) и их переводам (русский)», что должно было способствовать фокусировке агента на предложенном корпусе текстов.

Далее ИИ-агенту был направлен запрос, содержащий две задачи: во-первых, найти в базе данных алгоритм поиска ретроспективных нарративных структур; во-вторых, проанализировать текст романа «11/22/63» для поиска примеров реализации текстовой категории ретроспекции. ИИ-агент воспроизвел загруженный алгоритм поиска ретроспективных нарративных структур и корректно выделил соответствующий фрагмент текста из романа «11/22/63», что свидетельствует о его способности к воспроизведению методологической информации и идентификации искомой текстоструктуры в художественном тексте. При определении типов локально-темпоральных маркеров, присутствующих в представленном фрагменте, ИИ-агент не смог корректно соотнести имеющиеся в тексте маркеры с категориями, загруженными в базу знаний на предыдущих этапах исследования.

Опираясь на полученные результаты, мы можем сделать следующие выводы: после первичного «интуитивного» обучения ИИ-агент способен справиться с репродуктивными и поисковыми задачами (воспроизведение определений и алгоритмов, выделение фрагментов с заданными нарративными явлениями), однако его эффективность существенно снижается при переходе к аналитической деятельности, требующей интеграции теоретических положений с эмпирическим материалом.

В ходе экспериментальной работы были выявлены некоторые ограничения функционирования платформы, связанные с техническими особенностями и лимитами. Расширение функциональных возможностей платформы, а также включение лингвистики как специализированного направления деятельности способствовало бы значительному повышению качества генерируемых ответов.

Перспективным направлением развития работы с ИИ-агентами в рамках лингвистического исследования видится внедрение автоматизированных инструментов приведения загружаемых материалов к формату, корректно воспринимаемому ИИ-агентом, а также разработка унифицированных методических рекомендаций по составлению промптов для эффективного обучения агента. В более широкой перспективе дальнейшие исследования могут быть направлены на совершенствование функциональности ИИ-агентов для решения различных лингвистических задач, а также на разработку новой методологии лингвистических исследований, адекватной современным реалиям цифровой среды.

Список литературы:

Вишневецкая Н.В. Искусственный интеллект в обучении преподавателей профессиональной иноязычной коммуникации // Три «Л» в парадигме современного гуманитарного знания: лингвистика, литературоведение, лингводидактика. М.: ООО «Языки Народов Мира», 2025. С. 196-202.
ИИ-платформа по созданию виртуальных агентов в образовании // AI MGPU [сайт]. (дата обращения: 28.03.2026).
Нестеренко Ю.Н., Хожаинов А. Тестирование ИИ агентов // Вестник Национального института бизнеса, 2025. №58. С. 315-324.
Овсянникова М.А. Анализ тональности текста посредством инструмента искусственного интеллекта // Три «Л» в парадигме современного гуманитарного знания: лингвистика, литературоведение, лингводидактика: сб. науч. ст. М.: ООО «Языки Народов Мира», 2025. С. 33-38.
Остапенко С.В. Моделирование содержания сообщения в процессе автоматической генерации текста: лингво-информационный аспект. Автореф. …канд. филол. наук: 5.9.8 / Остапенко Светлана Валерьевна. Барнаул: 2025. 19 с.
Пользовательское соглашение // ai.mgpu.ru [сайт]. (дата обращения: 26.03.2026).
Руководство пользователя // ai.mgpu.ru [сайт]. (дата обращения: 28.03.2026).
Современная цифровая дидактика: монография / К.А. Баранников, Т.М. Босенко, А.А. Воронков [и др.]. М.: Издательство Интеллект-Центр, 2024. 133 с.
Тарева Е.Г., Тивьяева И.В. Трансформация лингводидактики: как искусственный интеллект формирует лингвообразовательные приоритеты // Современная цифровая дидактика: монография. М.: Издательство Интеллект-Центр, 2024. С. 37-44.
Тельпов Р.Е., Ларцина С.В. Типовые различия естественных и сгенерированных нейронной сетью текстов в квантитативном аспекте // Научный диалог, 2023. №12(7). С. 47-65.
Тивьяева И.В. Промпт-инжиниринг как новая компетенция лингвиста // Профессиональное лингвообразование: мат-лы 19-й междунар. науч.-практ. конф., Нижний Новгород, 17 окт. 2025 г. Нижний Новгород: РАНХиГС, 2025. С. 78–80.
Тивьяева И.В. Роль видо-временных форм глагола в реализации категории ретроспекции в художественном тексте // Вестник Воронеж. гос. ун-та. Сер. : Лингвистика и межкультурная коммуникация, 2007. №2–2. С. 55-60.
Тивьяева И.В., Михайлова С.В., Казанцева А.А. Регламентирование использования средств генеративного искусственного интеллекта в выпускной квалификационной работ, // Вестник МГПУ. Серия: Филология. Теория языка. Языковое образование, 2024. №2(54). С. 202-218.
Тошович Б. Лингвистика, стилистика и поэтика виртуальности. М.: Флинта, 2024. 520 с.
Фигура Е.В. Генерация текстов как объект лингвистических исследований // Вестник Российского нового университета. Сер. : Человек в современном мире. 2025. №3. С. 64-70.
Arunkumar V. Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents. (дата обращения: 25.03.2026).
Hadi M.U. Large Language Models: A Comprehensive Survey of its Applications, Challenges, Limitations, and Future Prospects / M.U. Hadi, Q. Al-Tashi, R. Qureshi, A. Shah, A. Muneer, M. Irfan, A. Zafar, M. Shaikh, N. Akhtar, J. Wu, S. Mirjalili // TechRxiv, 2025. (дата обращения: 25.03.2026).
Hughes L. AI Agents and Agentic Systems: A Multi-Expert Analysis / L. Hughes, Y.K. Dwivedi, T. Malik, M. Shawosh, M.A. Albashrawi, I. Jeon, V. Dutot et al. // Journal of Computer Information Systems, 2025. Vol. 65, №4.: 489–517.
Numan Gerard. (2020). Testing Artificial Intelligence. (дата обращения: 25.03.2026).

Expanding linguist’s digital toolkit: the potential of AI-agents for processing language data

Solovieva M.S.,
undergraduate of 1 course of the Moscow City University, Moscow

Research supervisor:
Tivyaeva Irina Vladimirovna,
Deputy Director of the Institute of Foreign Languages of the State Autonomous Educational Institution of Higher Education of the Moscow City University, Doctor of Philology, Associate Professor

Abstract. The digitalization of the humanities, including linguistics, highlights the need for methodological adaptation of research tools to the capabilities and limitations of large language models and agentic systems. This paper explores the potential of using AI-agents to address linguistic tasks: aggregating research data, typologizing language data, and building an empirical research base on literary texts. Experimental work in three areas has shown that the AI agents have relatively high potential for solving reproductive and search tasks within linguistic research$ however, when performing analytical operations that require integrating theoretical principals with empirical material, their capabilities are limited. Further research prospects involve the development of a new methodology for linguistic research that corresponds to the realities of the digital environment in general, and, in particular, the creation of methodological recommendations for training AI agents to solve analytical linguistic tasks.
Keywords: methodology of linguistic research, AI agent, AI persona, virtual agent, large language model, LLM, text generation, prompt engineering.

References:

Vishnevetskaya N.V. Artificial Intelligence in Teaching Teachers of Professional Foreign Language Communication // Three «L»s in the Paradigm of Modern Humanitarian Knowledge: Linguistics, Literary Studies, Linguodidactics. Moscow: LLC «Languages of the Peoples of the World», 2025.: 196-202.
AI Platform for Creating Virtual Agents in Education // AI MGPU [website]. (date of the address: 28.03.2026).
Nesterenko Yu.N., Khozhainov A. Testing AI Agents // Bulletin of the National Institute of Business, 2025. №58.: 315-324.
Ovsyannikova M.A. Text Sentiment Analysis Using Artificial Intelligence Tools // Three «L»s in the Paradigm of Modern Humanitarian Knowledge: Linguistics, Literary Studies, Linguodidactics: collection of scientific articles. Moscow: LLC «Languages of the Peoples of the World», 2025.: 33-38.
Ostapenko S.V. Modeling Message Content in Automatic Text Generation. Abstract of Candidate of Philology: 5.9.8 / Svetlana Valerievna Ostapenko. Barnaul: 2025. 19 p.
Terms of Use // ai.mgpu.ru [website]. (date of the address: 26.03.2026).
User Manual // ai.mgpu.ru [website]. (date of the address: 28.03.2026).
Modern Digital Didactics: monograph / K.A. Barannikov, T.M. Boshenko, A.A. Voronkov [et al.]. Moscow: Intellect-Center Publishing House, 2024. 133 p.
Tareva E.G., Tivyaeva I.V. Transformation of Linguodidactics: How Artificial Intelligence Shapes Linguoeducational Priorities // Modern Digital Didactics: monograph. Moscow: Intellect-Center Publishing House, 2024.: 37-44.
Telpov R.E., Lartsina S.V. Typical Differences between Natural and Neural Network-Generated Texts in Quantitative Aspect // Scientific Dialogue, 2023. №12(7).: 47-65.
Tivyaeva I.V. Prompt Engineering as a New Competence of a Linguist // Professional Linguoeducation: proceedings of the 19th international scientific-practical conference, Nizhny Novgorod, October 17, 2025. Nizhny Novgorod: RANEPA, 2025.: 78-80.
Tivyaeva I.V. The Role of Verb Aspect-Temporal Forms in Realizing the Category of Retrospection in Literary Text // Vestnik of Voronezh State University. Ser.: Linguistics and Intercultural Communication. 2007. №2-: 55-60.
Tivyaeva I.V., Mikhailova S.V., Kazantseva A.A. Regulating the Use of Generative Artificial Intelligence Tools in Graduation Qualification Works // Bulletin of Moscow City University. Series: Philology. Theory of Language. Language Education, 2024. №2(54).: 202-218.
Toshovich B. Linguistics, Stylistics and Poetics of Virtuality. Moscow: Flint, 2024. 520 p.
Figura E.V. Text Generation as an Object of Linguistic Research // Bulletin of the Russian New University. Ser.: Man in the Modern World. 2025. №3.: 64-70.
Arunkumar V. Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents. (date of the address: 25.03.2026).
Hadi M.U. Large Language Models: A Comprehensive Survey of its Applications, Challenges, Limitations, and Future Prospects / M.U. Hadi, Q. Al-Tashi, R. Qureshi, A. Shah, A. Muneer, M. Irfan, A. Zafar, M. Shaikh, N. Akhtar, J. Wu, S. Mirjalili // TechRxiv, 2025. (date of the address: 25.03.2026).
Hughes L. AI Agents and Agentic Systems: A Multi-Expert Analysis / L. Hughes, Y.K. Dwivedi, T. Malik, M. Shawosh, M.A. Albashrawi, I. Jeon, V. Dutot et al. // Journal of Computer Information Systems, 2025. Vol. 65, №4.: 489-517.
Numan Gerard. (2020). Testing Artificial Intelligence. 2020. (date of the address: 25.03.2026).