Подробное описание документа
Левин А. О.
Современные модели генерации изображений по текстовым описаниям: обзор и перспективы / Левин А. О., Гагарин Ю. Е. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции, Калуга, 15-17 апреля 2025 года : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2026. - Т. 2. -
Генерация изображений по текстовым описаниям является одной из ключевых задач в области искусственного интеллекта и компьютерного зрения. В последние годы развитие глубоких нейронных сетей, в частности трансформеров и диффузионных моделей, позволило значительно повысить качество и точность синтезируемых изображений. Представлен обзор современных моделей генерации изображений, таких как DALL·E 2, Stable Diffusion, Midjourney, Kandinsky и SDXL Turbo. Рассмотрены их архитектурные особенности, алгоритмические принципы и перспективы дальнейшего развития. Также обсуждаются текущие ограничения технологии, вычислительные затраты и потенциальные области применения.
Ключевые слова: генерация изображений, текст-изображение, GAN, VAE, трансформеры, диффузионные модели, искусственный интеллект, машинное обучение, компьютерное зрение
004.89 Прикладные системы искусственного интеллекта. Интеллектуальные системы, основанные на использовании знаний
Статья опубликована в следующих изданиях
Т. 2. - 2026. - 449 с. : ил. - Библиогр.