RU/EN
RU/EN

Подробное описание документа

   Статья

Тронов К. А., Гагарин Ю. Е.
   Методы формирования датасета для файнтюнинга больших языковых моделей на основе Telegram-чатов / Тронов К. А., Гагарин Ю. Е. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции, Калуга, 15-17 апреля 2025 года : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2026. - Т. 2. - С. 56-59.

Статья посвящена методам формирования датасетов на основе Telegram-чатов для файнтюнинга больших языковых моделей (БЯМ). Рассмотрены особенности извлечения неологизмов, региональной лексики и культурных заимствований из туристических чатов, а также предложены стратегии преобразования неструктурированных данных в обучающие наборы. Проанализированы различные подходы, включая создание пар «инструкция–ответ», скользящее окно контекста и прямое обучение на тексте. На примере данных из чатов семи стран продемонстрированы объемы обработанных сообщений и эффективность методов. Результаты работы применимы для создания специализированных ассистентов и улучшения работы БЯМ в специфических доменах.
Ключевые слова: большие языковые модели, файнтюнинг, LoRA, RAG, неологизмы, региональная лексика

004.622 Подготовка данных

Статья опубликована в следующих изданиях

с. 56-59
   Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции, Калуга, 15-17 апреля 2025 года : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М. : Изд-во МГТУ им. Н. Э. Баумана, 2026. - ISBN 978-5-7038-6701-3.
   Т. 2. - 2026. - 449 с. : ил. - Библиогр. в конце статей. - ISBN 978-5-7038-6707-5.