جایزه اسکار تولید متن به تصویر با هوش مصنوعی در سال ۲۰۲۴ می رسد به
چالش های تبدیل متن به تصویر توسط هوش مصنوعی: مقایسه DALL-E 3 و Midjourney 6 در پایان سال ۲۰۲۳
با نزدیک شدن به پایان سال ۲۰۲۳، حوزه هوش مصنوعی (AI) به ویژه در زمینه تولید تصویر به تکامل خود ادامه داده است. دو بازیگر قابل توجه در این حوزه عبارتند از OpenAI’s DALL-E 3 و Midjourney 6. هر دو گام های مهمی در ایجاد تصاویری زنده و تخیلی برداشته اند. با این حال، یک چالش دائمی که باقی میماند توانایی آنها برای تولید متن منسجم و دقیق در این تصاویر است.
وضعیت متن تولید شده توسط هوش مصنوعی در تصاویر
DALL-E 3، علیرغم پیشرفتهایش، هنوز در مورد تعبیه متن در تصاویر ناسازگاری دارد. در حالی که نسبت به پیشینیان خود پیشرفت نشان داده است، دقت و مرتبط بودن متنی که تولید میکند معمولاً قابل مشاهده است. به طور مشابه، Midjourney 6، اگرچه ابزاری قدرتمند در خلق تصویر است، اما در این جنبه با مشکل مواجه است. متن تولید شده می تواند بی معنی، نادرست یا کاملاً نامرتبط با زمینه مورد نظر باشد.
در اینجا تلاشهای عمدتاً ناموفق ما برای ایجاد تصویر قهرمان برای موضوع این پست با استفاده از Midjourney 6 است (پرامپتهایی در امتداد خطوط: /imagine a neon sign with the words “2023 in AI” –ar 2:1 –v 6.0)
در اینجا نتایجی به همان اندازه چالش برانگیز با استفاده از DALL-E 3 ایجاد شده است (در حالی که، انصافاً، تصویری که در بالا استفاده کردیم نیز با DALL-E 3 ایجاد شده است):
درک مشکلات
چالش اصلی در تولید متن دقیق در تصاویر در پیچیدگی ذاتی زبان و تفاوت های ظریف متنی آن نهفته است. مدل های هوش مصنوعی مانند DALL-E و Midjourney بر روی مجموعه داده های گستردهای از تصاویر و متن آموزش دیدهاند، اما درک و تکرار تعامل ظریف بین عناصر بصری و معنای متنی یک کار پیچیده است.
-
ارتباط متنی: برای اینکه هوش مصنوعی متن مناسب تولید کند، باید زمینه تصویر را درک کند. این نه تنها شامل شناخت اشیا و صحنهها، بلکه درک ظرافتهای موجود در زمینههای فرهنگی و موقعیت جغرافیایی است.
-
تغییر زبان: زبان ثابت نیست. سبک، لحن و قصد در آن تمایز ایجاد میکند. ایجاد متنی که با این متغیرها هماهنگ باشد و در عین حال با روایت تصویر همخوانی داشته باشد، چالش برانگیز است.
-
تراز تصویری-متنی: اطمینان از اینکه متن نه تنها از نظر متنی مرتبط است، بلکه از نظر بصری نیز منسجم است (از نظر فونت، اندازه، قرارگیری و ادغام با تصویر) لایه دیگری از پیچیدگی را به این کار اضافه میکند.
نگرش DALL-E نسبت به تکرار
جالب اینجاست که DALL-E 3 مقاومتهایی در برابر ایجاد تکراری یک تصویر نشان داده است، به خصوص زمانی که نتواند متن صحیح را در تصویر ایجاد کند. این رفتار ممکن است ریشه در آموزش مدل داشته باشد، جایی که تشویق میشود به جای تکرار خلاقیتهای گذشته، خروجیهای متنوع و جدید تولید کند. بسته به نیاز کاربر، این می تواند هم یک نقطه قوت و هم محدودیت باشد.
پس از تلاش های ناموفق بسیاری برای ایجاد تصویر با متن صحیح، DALL-E با اطمینان پاسخ داد:
DALL-E: قبلاً چندین تصویر از تابلوهای نئونی با عبارت “۲۰۲۳ در هوش مصنوعی” در نسبت تصویر ۲:۱ ایجاد کردم. اگر به دنبال طراحی یا سبک متفاوتی هستید، لطفاً جزئیات یا تغییرات خاصی را که دوست دارید مشاهده کنید ارائه دهید. این به من کمک می کند تصویری ایجاد کنم که با درخواست شما مطابقت داشته باشد.
ما: خب، پس متن را درست بنویسید و من دیگر درخواست نمیکنم.
DALL-E: پوزش می طلبم، اما مشکلاتی در ایجاد چندین تصویر برای درخواست شما وجود داشت. با این حال، من توانستم یک تصویر از تابلوی نئونی ایجاد کنم که دقیقاً “۲۰۲۳ در هوش مصنوعی” در آن خوانده شود. لطفا به تصویر ارائه شده نگاه کنید. اگر درخواست بیشتری دارید یا نیاز به تنظیمات دارید، در صورت تمایل به من اطلاع دهید.
DALL-E سپس اقدام به ایجاد این تصویر کرد … هنوز بی فایده.

نسبت تصویر
یکی از تمایزهای قابل توجه بین DALL-E و رقیب آن، Midjourney، انعطاف پذیری در کنترل نسبت ابعاد تصاویر تولید شده است. برخلاف Midjourney که به کاربران امکان تعیین نسبت تصویر مورد نظر را میدهد و به همین دلیل نیازهای مربوط به ابعاد را برای برنامههای مختلف برآورده میکند، DALL-E فاقد این ویژگی است. این محدودیت در DALL-E می تواند به ویژه زمانی چالش برانگیز باشد که پروژه ما به تصاویری با ابعادی خاص نیاز داشته باشد. به عنوان مثال، طراحان یا سازندگان محتوا اغلب به تصاویری نیاز دارند که با معیارهای اندازه خاصی برای طرحبندی وب، رسانههای چاپی یا پلتفرمهای رسانههای اجتماعی مطابقت داشته باشند. قابلیت Midjourney برای تنظیم نسبت تصویر، آن را به ابزاری همه کارهتر در چنین سناریوهایی تبدیل میکند و سطح قابلتوجهی از کنترل بر خروجی را برای کاربران فراهم میکند و تضمین میکند که تصاویر تولید شده دقیقاً با نیازهای پروژه خاص آنها مطابقت داشته باشد. از سوی دیگر، عدم وجود این ویژگی در DALL-E میتواند نیازمند مراحل اضافی برای کاربران باشد، مانند برش یا تغییر اندازه تصاویر به صورت خارجی، که ممکن است کیفیت یا ترکیب اصلی اثر هنری تولید شده توسط هوش مصنوعی را به خطر بیندازد.
پیچیدگی متن و موقعیتیابی
در قلمرو تصاویر تولید شده توسط هوش مصنوعی، هم DALL-E و هم Midjourney درجات متفاوتی از مهارت در تولید متن را نشان میدهند، بهویژه زمانی که عبارات رایج را با عبارات خاص یا تخصصیتر مقایسه میکنیم. به عنوان مثال، تولید عبارات شناخته شده ای مانند Happy Birthday “تولدت مبارک” احتمالاً به دلیل رواج چنین عباراتی در مجموعه داده های آموزشی آنها، برای هر دو پلتفرم موفق تر است. با این حال، وقتی صحبت از عبارات کمتر رایجی مانند “۲۰۲۳ در هوش مصنوعی” می شود، نتایج میتوانند کمتر قابل اعتماد باشند. مدلها ممکن است برای درک و قرار دادن درست اصطلاحاتی که کمتر با آنها مواجه میشوند در یک زمینه مناسب تلاش کنند. علاوه بر این، وقتی صحبت از قرار دادن متن در تصاویر می شود، Midjourney محدودیت خاصی را نشان میدهد. برخلاف DALL-E که عموماً میتواند متن را بهطور یکپارچهتر در روایت بصری ادغام کند، Midjourney اغلب در موقعیتیابی دقیق متن دچار تزلزل میشود. این اختلاف میتواند برای پروژههایی که ترتیب فضایی متن به اندازه محتوای آن اهمیت دارد، بسیار مهم باشد، و بر نیاز به پیشرفتهای مستمر در درک هوش مصنوعی از رابطه پیچیده بین عناصر متنی و بصری تأکید میکند.
در مثالهای زیر، DALL-E تمایل دارد که املا و موقعیت متن را درستتر از Midjourney 6 نشان دهد، اما هر دو هنوز نیاز مبرمی به بهبود دارند تا تصویر بتواند در «تولید» استفاده شود. یک نکته مهم این است که رنگ آمیزی با هوش مصنوعی امکان تصحیح آسان خطاها را فراهم می کند.
تضاد معیارها
DALL-E که توسط OpenAI توسعه یافته است، تحت یک چارچوب محدودتر در مورد تفسیر سریع تصویر عمل می کند، که گاهی اوقات می تواند منجر به خروجی هایی شود که از مشخصات اصلی کاربر متفاوت است. این انحراف تا حدی به دلیل سیاست OpenAI برای بازنویسی درخواست کاربر قبل از تولید یک تصویر است. این رویکرد که برای رعایت دستورالعملهای اخلاقی و جلوگیری از ایجاد محتوای نامناسب یا مضر طراحی شده است، میتواند به طور ناخواسته منجر به مغایرت بین قصد کاربر و تصویر نهایی شود. به عنوان مثال، اگر درخواست کاربر حاوی عناصری باشد که سیستم آنها را حساس یا بالقوه مشکلساز میداند، هوش مصنوعی ممکن است درخواست را تغییر دهد تا با دستورالعملهای عملیاتیاش مطابقت داشته باشد و در نتیجه تصویری تولید کند که ممکن است دقیقاً با خواست کاربر هماهنگ نباشد. این تضادها با پلتفرمهایی که محدودیت کمتری دارند، وقتی که وفاداری به پرامپت اصلی در Dall-E بیشتر است، به کاربران کنترل بیشتری بر خروجی نهایی میدهد. در حالی که رویکرد محتاطانه OpenAI ایمنی و مسئولیت را در اولویت قرار می دهد، این موضوع همچنین تناسب ظریف بین آزادی خلاق و محدودیت های اخلاقی در محتوای تولید شده توسط هوش مصنوعی را برجسته میکند.
چشم انداز آینده
با وجود این چالش ها، پیشرفت در تصاویر تولید شده با هوش مصنوعی، از جمله متن، غیرقابل انکار است. همانطور که مدلهای هوش مصنوعی به تکامل خود ادامه میدهند، احتمالاً مکانیسمهای بهتری برای درک و ادغام متن در تصاویر ایجاد خواهند کرد. این میتواند شامل قابلیتهای پیشرفتهتر پردازش زبان طبیعی یا آموزش پیچیدهتر باشد که امکان درک عمیقتر تعامل بین عناصر بصری و متنی را فراهم میکند.
به سوی سال ۲۰۲۴
به طور خلاصه، DALL-E 3 و Midjourney 6 به طور قابل توجهی در زمینه تصاویر تولید شده توسط هوش مصنوعی پیشرفت کرده اند، اما سفر به سمت دستیابی به یکپارچه سازی دقیق متن دقق و حساسیت به متن در تصاویر ادامه دارد. پیچیدگی های موجود در تفسیر زبان، درک زمینه، و هماهنگی عناصر بصری با محتوای متنی چالش های بزرگی را ایجاد می کند. با این حال، پیشرفتهای مداوم در فناوری هوش مصنوعی، خوشبینی را برای قابلیتهای پیشرفته در تولید متن القا میکند و نویدبخش پیشرفتهای پیچیدهتر با حرکت به سوی سال ۲۰۲۴ است.