Подробное описание документа

Аналитическое описание

Левин А. О., Гагарин Ю. Е.
Современные модели генерации изображений по текстовым описаниям: обзор и перспективы / Левин А. О., Гагарин Ю. Е. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции, Калуга, 15-17 апреля 2025 года : в 2 т. / МГТУ им. Н. Э. Баумана. - 2026. - Т. 2. - С. 64-66.

Аннотация

Генерация изображений по текстовым описаниям является одной из ключевых задач в области искусственного интеллекта и компьютерного зрения. В последние годы развитие глубоких нейронных сетей, в частности трансформеров и диффузионных моделей, позволило значительно повысить качество и точность синтезируемых изображений. Представлен обзор современных моделей генерации изображений, таких как DALL·E 2, Stable Diffusion, Midjourney, Kandinsky и SDXL Turbo. Рассмотрены их архитектурные особенности, алгоритмические принципы и перспективы дальнейшего развития. Также обсуждаются текущие ограничения технологии, вычислительные затраты и потенциальные области применения.
Ключевые слова: генерация изображений, текст-изображение, GAN, VAE, трансформеры, диффузионные модели, искусственный интеллект, машинное обучение, компьютерное зрение

УДК
004.89 Прикладные системы искусственного интеллекта. Интеллектуальные системы, основанные на использовании знаний

Авторы МГТУ

Гагарин Юрий Евгеньевич

Статья опубликована в следующих изданиях

с. 64-66

Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции, Калуга, 15-17 апреля 2025 года : в 2 т. / МГТУ им. Н. Э. Баумана. - М. : Изд-во МГТУ им. Н. Э. Баумана, 2026. - ISBN 978-5-7038-6701-3.
Т. 2. - 2026. - 449 с. : ил. - Библиогр. в конце статей. - ISBN 978-5-7038-6707-5.

подробнее