مجله خبری و آموزشی هوش مصنوعی

جایزه برترین هوش مصنوعی سال ۲۰۲۳ در زمینه تبدیل متن به تصویر

توسط کامران روزبه
منتشر شده: آخرین بروز رسانی در تاریخ ۰ اظهار نظر

جایزه اسکار تولید متن به تصویر با هوش مصنوعی در سال ۲۰۲۴ می رسد به

چالش های تبدیل متن به تصویر توسط هوش مصنوعی: مقایسه DALL-E 3 و Midjourney 6 در پایان سال ۲۰۲۳

با نزدیک شدن به پایان سال ۲۰۲۳، حوزه هوش مصنوعی (AI) به ویژه در زمینه تولید تصویر به تکامل خود ادامه داده است. دو بازیگر قابل توجه در این حوزه عبارتند از OpenAI’s DALL-E 3 و Midjourney 6. هر دو گام های مهمی در ایجاد تصاویری زنده و تخیلی برداشته اند. با این حال، یک چالش دائمی که باقی می‌ماند توانایی آن‌ها برای تولید متن منسجم و دقیق در این تصاویر است.

وضعیت متن تولید شده توسط هوش مصنوعی در تصاویر

DALL-E 3، علیرغم پیشرفت‌هایش، هنوز در مورد تعبیه متن در تصاویر ناسازگاری دارد. در حالی که نسبت به پیشینیان خود پیشرفت نشان داده است، دقت و مرتبط بودن متنی که تولید می‌کند معمولاً قابل مشاهده است. به طور مشابه، Midjourney 6، اگرچه ابزاری قدرتمند در خلق تصویر است، اما در این جنبه با مشکل مواجه است. متن تولید شده می تواند بی معنی، نادرست یا کاملاً نامرتبط با زمینه مورد نظر باشد.

در اینجا تلاش‌های عمدتاً ناموفق ما برای ایجاد تصویر قهرمان برای موضوع این پست با استفاده از Midjourney 6 است (پرامپت‌هایی در امتداد خطوط: /imagine a neon sign with the words “2023 in AI” –ar 2:1 –v 6.0)

در اینجا نتایجی به همان اندازه چالش برانگیز با استفاده از DALL-E 3 ایجاد شده است (در حالی که، انصافاً، تصویری که در بالا استفاده کردیم نیز با DALL-E 3 ایجاد شده است):

درک مشکلات

چالش اصلی در تولید متن دقیق در تصاویر در پیچیدگی ذاتی زبان و تفاوت های ظریف متنی آن نهفته است. مدل های هوش مصنوعی مانند DALL-E و Midjourney بر روی مجموعه داده های گسترده‌ای از تصاویر و متن آموزش دیده‌اند، اما درک و تکرار تعامل ظریف بین عناصر بصری و معنای متنی یک کار پیچیده است.

  1. ارتباط متنی: برای اینکه هوش مصنوعی متن مناسب تولید کند، باید زمینه تصویر را درک کند. این نه تنها شامل شناخت اشیا و صحنه‌ها، بلکه درک ظرافت‌های موجود در زمینه‌های فرهنگی و موقعیت جغرافیایی است.

  2. تغییر زبان: زبان ثابت نیست. سبک، لحن و قصد در آن تمایز ایجاد می‌کند. ایجاد متنی که با این متغیرها هماهنگ باشد و در عین حال با روایت تصویر همخوانی داشته باشد، چالش برانگیز است.

  3. تراز تصویری-متنی: اطمینان از اینکه متن نه تنها از نظر متنی مرتبط است، بلکه از نظر بصری نیز منسجم است (از نظر فونت، اندازه، قرارگیری و ادغام با تصویر) لایه دیگری از پیچیدگی را به این کار اضافه می‌کند.

نگرش DALL-E نسبت به تکرار

جالب اینجاست که DALL-E 3 مقاومت‌هایی در برابر ایجاد تکراری یک تصویر نشان داده است، به خصوص زمانی که نتواند متن صحیح را در تصویر ایجاد کند. این رفتار ممکن است ریشه در آموزش مدل داشته باشد، جایی که تشویق می‌شود به جای تکرار خلاقیت‌های گذشته، خروجی‌های متنوع و جدید تولید کند. بسته به نیاز کاربر، این می تواند هم یک نقطه قوت و هم محدودیت باشد.

پس از تلاش های ناموفق بسیاری برای ایجاد تصویر با متن صحیح، DALL-E با اطمینان پاسخ داد:

DALL-E: قبلاً چندین تصویر از تابلوهای نئونی با عبارت “۲۰۲۳ در هوش مصنوعی” در نسبت تصویر ۲:۱ ایجاد کردم. اگر به دنبال طراحی یا سبک متفاوتی هستید، لطفاً جزئیات یا تغییرات خاصی را که دوست دارید مشاهده کنید ارائه دهید. این به من کمک می کند تصویری ایجاد کنم که با درخواست شما مطابقت داشته باشد.

ما: خب، پس متن را درست بنویسید و من دیگر درخواست نمی‌کنم.

DALL-E: پوزش می طلبم، اما مشکلاتی در ایجاد چندین تصویر برای درخواست شما وجود داشت. با این حال، من توانستم یک تصویر از تابلوی نئونی ایجاد کنم که دقیقاً “۲۰۲۳ در هوش مصنوعی” در آن خوانده شود. لطفا به تصویر ارائه شده نگاه کنید. اگر درخواست بیشتری دارید یا نیاز به تنظیمات دارید، در صورت تمایل به من اطلاع دهید.

DALL-E سپس اقدام به ایجاد این تصویر کرد … هنوز بی فایده.

نسبت تصویر

یکی از تمایزهای قابل توجه بین DALL-E و رقیب آن، Midjourney، انعطاف پذیری در کنترل نسبت ابعاد تصاویر تولید شده است. برخلاف Midjourney که به کاربران امکان تعیین نسبت تصویر مورد نظر را می‌دهد و به همین دلیل نیازهای مربوط به ابعاد را برای برنامه‌های مختلف برآورده می‌کند، DALL-E فاقد این ویژگی است. این محدودیت در DALL-E می تواند به ویژه زمانی چالش برانگیز باشد که پروژه ما به تصاویری با ابعادی خاص نیاز داشته باشد. به عنوان مثال، طراحان یا سازندگان محتوا اغلب به تصاویری نیاز دارند که با معیارهای اندازه خاصی برای طرح‌بندی وب، رسانه‌های چاپی یا پلتفرم‌های رسانه‌های اجتماعی مطابقت داشته باشند. قابلیت Midjourney برای تنظیم نسبت تصویر، آن را به ابزاری همه کاره‌تر در چنین سناریوهایی تبدیل می‌کند و سطح قابل‌توجهی از کنترل بر خروجی را برای کاربران فراهم می‌کند و تضمین می‌کند که تصاویر تولید شده دقیقاً با نیازهای پروژه خاص آنها مطابقت داشته باشد. از سوی دیگر، عدم وجود این ویژگی در DALL-E می‌تواند نیازمند مراحل اضافی برای کاربران باشد، مانند برش یا تغییر اندازه تصاویر به صورت خارجی، که ممکن است کیفیت یا ترکیب اصلی اثر هنری تولید شده توسط هوش مصنوعی را به خطر بیندازد.

پیچیدگی متن و موقعیت‌یابی

در قلمرو تصاویر تولید شده توسط هوش مصنوعی، هم DALL-E و هم Midjourney درجات متفاوتی از مهارت در تولید متن را نشان می‌دهند، به‌ویژه زمانی که عبارات رایج را با عبارات خاص یا تخصصی‌تر مقایسه می‌کنیم. به عنوان مثال، تولید عبارات شناخته شده ای مانند Happy Birthday  “تولدت مبارک” احتمالاً به دلیل رواج چنین عباراتی در مجموعه داده های آموزشی آنها، برای هر دو پلتفرم موفق تر است. با این حال، وقتی صحبت از عبارات کمتر رایجی مانند “۲۰۲۳ در هوش مصنوعی” می شود، نتایج می‌توانند کمتر قابل اعتماد باشند. مدل‌ها ممکن است برای درک و قرار دادن درست اصطلاحاتی که کمتر با آن‌ها مواجه می‌شوند در یک زمینه مناسب تلاش کنند. علاوه بر این، وقتی صحبت از قرار دادن متن در تصاویر می شود، Midjourney محدودیت خاصی را نشان می‌دهد. برخلاف DALL-E که عموماً می‌تواند متن را به‌طور یکپارچه‌تر در روایت بصری ادغام کند، Midjourney اغلب در موقعیت‌یابی دقیق متن دچار تزلزل می‌شود. این اختلاف می‌تواند برای پروژه‌هایی که ترتیب فضایی متن به اندازه محتوای آن اهمیت دارد، بسیار مهم باشد، و بر نیاز به پیشرفت‌های مستمر در درک هوش مصنوعی از رابطه پیچیده بین عناصر متنی و بصری تأکید می‌کند.

در مثال‌های زیر، DALL-E تمایل دارد که املا و موقعیت متن را درست‌تر از Midjourney 6 نشان دهد، اما هر دو هنوز نیاز مبرمی به بهبود دارند تا تصویر بتواند در «تولید» استفاده شود. یک نکته مهم این است که رنگ آمیزی با هوش مصنوعی امکان تصحیح آسان خطاها را فراهم می کند.

تضاد معیارها

DALL-E که توسط OpenAI توسعه یافته است، تحت یک چارچوب محدودتر در مورد تفسیر سریع تصویر عمل می کند، که گاهی اوقات می تواند منجر به خروجی هایی شود که از مشخصات اصلی کاربر متفاوت است. این انحراف تا حدی به دلیل سیاست OpenAI برای بازنویسی درخواست کاربر قبل از تولید یک تصویر است. این رویکرد که برای رعایت دستورالعمل‌های اخلاقی و جلوگیری از ایجاد محتوای نامناسب یا مضر طراحی شده است، می‌تواند به طور ناخواسته منجر به مغایرت بین قصد کاربر و تصویر نهایی شود. به عنوان مثال، اگر درخواست کاربر حاوی عناصری باشد که سیستم آنها را حساس یا بالقوه مشکل‌ساز می‌داند، هوش مصنوعی ممکن است درخواست را تغییر دهد تا با دستورالعمل‌های عملیاتی‌اش مطابقت داشته باشد و در نتیجه تصویری تولید کند که ممکن است دقیقاً با خواست کاربر هماهنگ نباشد. این تضادها با پلتفرم‌هایی که محدودیت کمتری دارند، وقتی که وفاداری به پرامپت اصلی در Dall-E بیشتر است، به کاربران کنترل بیشتری بر خروجی نهایی می‌دهد. در حالی که رویکرد محتاطانه OpenAI ایمنی و مسئولیت را در اولویت قرار می دهد، این موضوع همچنین تناسب ظریف بین آزادی خلاق و محدودیت های اخلاقی در محتوای تولید شده توسط هوش مصنوعی را برجسته می‌کند.

چشم انداز آینده

با وجود این چالش ها، پیشرفت در تصاویر تولید شده با هوش مصنوعی، از جمله متن، غیرقابل انکار است. همانطور که مدل‌های هوش مصنوعی به تکامل خود ادامه می‌دهند، احتمالاً مکانیسم‌های بهتری برای درک و ادغام متن در تصاویر ایجاد خواهند کرد. این می‌تواند شامل قابلیت‌های پیشرفته‌تر پردازش زبان طبیعی یا آموزش پیچیده‌تر باشد که امکان درک عمیق‌تر تعامل بین عناصر بصری و متنی را فراهم می‌کند.

به سوی سال ۲۰۲۴

به طور خلاصه، DALL-E 3 و Midjourney 6 به طور قابل توجهی در زمینه تصاویر تولید شده توسط هوش مصنوعی پیشرفت کرده اند، اما سفر به سمت دستیابی به یکپارچه سازی دقیق متن دقق و حساسیت به متن در تصاویر ادامه دارد. پیچیدگی های موجود در تفسیر زبان، درک زمینه، و هماهنگی عناصر بصری با محتوای متنی چالش های بزرگی را ایجاد می کند. با این حال، پیشرفت‌های مداوم در فناوری هوش مصنوعی، خوش‌بینی را برای قابلیت‌های پیشرفته در تولید متن القا می‌کند و نویدبخش پیشرفت‌های پیچیده‌تر با حرکت به سوی سال ۲۰۲۴ است.

این مطالب هم پیشنهاد می‌شود

پیام بگذارید