Подробное описание документа
Тронов К. А.
Методы формирования датасета для файнтюнинга больших языковых моделей на основе Telegram-чатов / Тронов К. А., Гагарин Ю. Е. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции, Калуга, 15-17 апреля 2025 года : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2026. - Т. 2. -
Статья посвящена методам формирования датасетов на основе Telegram-чатов для файнтюнинга больших языковых моделей (БЯМ). Рассмотрены особенности извлечения неологизмов, региональной лексики и культурных заимствований из туристических чатов, а также предложены стратегии преобразования неструктурированных данных в обучающие наборы. Проанализированы различные подходы, включая создание пар «инструкция–ответ», скользящее окно контекста и прямое обучение на тексте. На примере данных из чатов семи стран продемонстрированы объемы обработанных сообщений и эффективность методов. Результаты работы применимы для создания специализированных ассистентов и улучшения работы БЯМ в специфических доменах.
Ключевые слова: большие языковые модели, файнтюнинг, LoRA, RAG, неологизмы, региональная лексика
004.622 Подготовка данных
Статья опубликована в следующих изданиях
Т. 2. - 2026. - 449 с. : ил. - Библиогр.