استارتاپ Runway که با مدلهای هوش مصنوعی خود ازجمله مدل تبدیل تصاویر به ویدیو شناخته میشود، از پیشرفت بزرگ بعدی خود خبر داده است. این شرکت از مبحث جدیدی موسوم به «مدلهای جهانی عمومی» (General World Models) پرده برداشته که میتوانند محیطهای بزرگ و تعاملات درون آنها را درک کنند.
Runway در پستی در وبسایت خود میگوید یک مدل جهانی درواقع یک سیستم هوش مصنوعی است که تمثیلی از یک محیط را بهوجود میآورد و از آن برای پیشبینی رویدادهای آینده در آن محیط استفاده میکند. پیشتر هم تحقیقاتی دراینباره انجام شده اما به نتایج بسیار محدودی رسیده بود. حالا Runway میخواهد این سیستمها را در موقعیتها و تعاملات بسیار گستردهتر، مشابه آنچه که در دنیای واقعی وجود دارد، پیادهسازی کند.
این استارتاپ ادعا کرده که مدل هوش مصنوعی Gen-2 نمونه اولیه و بسیار محدودی از همین مدلهای جهانی عمومی است. این مدل برای تولید ویدیوهای کوتاه واقعگرایانه به اندک درکی از علم فیزیک و حرکت اشیا رسیده، اما تواناییهای آن هنوز بسیار محدود است و نمیتواند حرکات پیچیده دوربین یا اشیا را پردازش کند.
معرفی سیستمهای هوش مصنوعی جدید Runway
در ویدیویی که توسط Runway منتشر شده است، مدلهای جهانی عمومی به کارکرد ذهن سگها تشبیه شدهاند؛ یعنی این مدلها با درک برخی از عناصر محیط پیرامون خود میتوانند رویدادهای آینده را حدس بزنند. مثلاً وقتی شما سگ خود را از خانه بیرون میبرید و از یک خیابان خاص عبور میکنید که به یک پارک منتهی میشود، سگ شما میتواند پیشبینی کند که چون قبلاً از همان مسیر به پارک رفته، پس الان هم درحال رفتن به پارک است.
این مدلهای هوش مصنوعی هم عملکرد مشابهی دارند. برای نمونه، اگر تصویری از یک سیب را در آسمان ببینند، شاید بتوانند حدس بزنند که این سیب از پایین به بالا پرتاب شده است و نیروی گرانش آن را بهسمت زمین برمیگرداند. مدلهای GWM علاوه بر متن، با تصویر، ویدیو و صدا هم آموزش داده میشوند.
Runway میگوید مدلهای جهانی عمومی باید نقشههایی را از محیط ایجاد کنند و بتوانند از تعاملات موجود در آن محیط ادراک داشته باشند. این سیستمها نهتنها باید دینامیک جهان را بفهمند، بلکه متوجه دینامیک ساکنان آن جهان باشند. Runway مدعی است که نسل بعدی مدلهای هوش مصنوعی به این سمت حرکت خواهد کرد و این سیستمها تغییر بزرگ بعدی خواهند بود.