محققان تیم Brain گوگل Imagen را معرفی کرده‌اند، یک مدل هوش مصنوعی متن به تصویر که می‌تواند تصاویر واقعی از یک صحنه با توضیحات متنی تولید کند.

 
Imagen در معیار COCO از DALL-E 2 بهتر عمل می کند و برخلاف بسیاری از مدل های مشابه، فقط بر روی داده های متنی از قبل آموزش داده شده است. Imagen از یک مدل زبان Transformer برای تبدیل متن ورودی به دنباله ای از بردارهای جاسازی شده استفاده می کند. یک سری از سه مدل انتشار، سپس جاسازی‌ها را به یک تصویر 1024×1024 پیکسل تبدیل می‌کنند. به عنوان بخشی از کار خود، این تیم یک مدل انتشار بهبودیافته به نام Efficient U-Net و همچنین یک مجموعه معیار جدید برای مدل‌های متن به تصویر به نام DrawBench توسعه دادند. در معیار کوکو، Imagen امتیاز FID (بدون آموزش قبلی) 7.27 را به دست آورد که از DALL-E 2، بهترین مدل قبلی، بهتر عمل کرد.

بیشتر بدانید: https://lnkd.in/eVgAyzRp