Подробное описание документа
Чжао Чэньсяо
Применение архитектуры Transformer в моделях обработки изображений и языка / Чжао Чэньсяо, Белов Ю. С. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции, Калуга, 15-17 апреля 2025 года : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2026. - Т. 2. -
Модель Transformer была создана в области обработки естественного языка (Natural Language Processing, NLP) и благодаря превосходному механизму внимания стала популярной в области компьютерного зрения (Computer Vision, CV). Сейчас она постепенно развивается в многомодальных моделях обработки изображений и языка (Vision-Language Models, VLMs). Представлен обзор структуры и классификации архитектуры Transformer, а также описаны ее развитие и применение в больших языковых моделях, визуальных моделях и моделях обработки изображений и языка. Это не только помогает понять принцип работы данной популярной архитектуры, но и предоставляет исследователям мощный инструмент для дальнейших исследований и инноваций.
Ключевые слова: Transformer, большие языковые модели, визуальные модели, модели обработки изображений и языка
004.89 Прикладные системы искусственного интеллекта. Интеллектуальные системы, основанные на использовании знаний
Статья опубликована в следующих изданиях
Т. 2. - 2026. - 449 с. : ил. - Библиогр.