محققان تیم Brain گوگل Imagen را معرفی کردهاند، یک مدل هوش مصنوعی متن به تصویر که میتواند تصاویر واقعی از یک صحنه با توضیحات متنی تولید کند.
Imagen در معیار COCO از DALL-E 2 بهتر عمل می کند و برخلاف بسیاری از مدل های مشابه، فقط بر روی داده های متنی از قبل آموزش داده شده است. Imagen از یک مدل زبان Transformer برای تبدیل متن ورودی به دنباله ای از بردارهای جاسازی شده استفاده می کند. یک سری از سه مدل انتشار، سپس جاسازیها را به یک تصویر 1024×1024 پیکسل تبدیل میکنند. به عنوان بخشی از کار خود، این تیم یک مدل انتشار بهبودیافته به نام Efficient U-Net و همچنین یک مجموعه معیار جدید برای مدلهای متن به تصویر به نام DrawBench توسعه دادند. در معیار کوکو، Imagen امتیاز FID (بدون آموزش قبلی) 7.27 را به دست آورد که از DALL-E 2، بهترین مدل قبلی، بهتر عمل کرد.
https://asaco-it.com/wp-content/uploads/2020/06/Asset-4online-e1595754789705.png00Adloginhttps://asaco-it.com/wp-content/uploads/2020/06/Asset-4online-e1595754789705.pngAdlogin2022-06-18 09:01:272022-06-20 10:02:11هوش مصنوعی Imagen جدید گوگل در معیارهای تولید متن به تصویر بهتر از DALL-E عمل می کند.