
مدل هوش مصنوعی گوگل به راحتی توسط همه کاربران قابل استفاده است. برای مثال اگر بنویسید «تصویر یک گربه پرشین که کلاه گاوچرانی به سر گذاشته، پیراهن قرمز پوشیده و در ساحل گیتار میزند» تصویر زیر به دست میآید. گوگل میگوید در مقایسهای که بین مدل خود و سایر مدلهای مشابه داشته، فهمیده که کاربران دقت و صحت تصاویر را در این مدل بیشتر میپسندند.
اهالی ماونتین ویو شماری از خروجیهای مدل Imagen را در
وبسایت این پروژه منتشر کردهاند. با این حال، این نمونهها دستچین شدهاند و ممکن است از بین هزاران خروجی دیگر انتخاب شده باشند که به این خوبی نیستند. مدل Imagen بهصورت عمومی در دسترس نیست، چون گوگل معتقد است که این مدل هنوز به دلایل مختلف برای استفاده عمومی آماده نیست.
مدلهای تبدیل متن به تصویر معمولا با مجموعه بزرگی از اطلاعات تعلیم داده میشوند که از سطح اینترنت به دست میآیند و دستچین نشدهاند. در نتیجه، مشکلات متنوعی به وجود میآید. محققان گوگل میگویند: «هرچند این رویکرد موجب پیشرفتهای الگوریتمی سریع در سالهای اخیر شده، دادههایی که از این طریق به دست میآیند حاوی کلیشههای اجتماعی، نظرات افراطی و توهینآمیز یا اشکالات دیگری هستند که به ضرر اقلیتها تمام میشود.»
در ادامه گفته شده: «اگرچه زیرمجموعهای از این دادهها از صافی عبور کرده بود تا نویزها و محتواهای ناخواسته را حذف کند، ولی ما از مجموعه داده LAION-۴۰۰M هم استفاده کردیم که به داشتن گستره وسیعی از محتواهای نامناسب از جمله تصاویر هرزهنگاری، نژادپرستی و کلیشههای آسیبزننده اجتماعی معروف است.»
در نتیجه، Imagen سوگیریهای اجتماعی و محدودیتهای مدلهای زبانی بزرگ را به ارث برده است. با این حال، در آینده احتمالا بخشی از این مشکلات برطرف خواهند شد.