اگر تعریف «stealing someone’s thunder» را در فرهنگ لغت جستجو کنید، به احتمال زیاد عکسی از سم آلتمن و OpenAI خواهید یافت. دلیل این امر این است که شرکت سازنده ChatGPT، DALL-E، و GPT-4 عادت دارد رقبای خود بهویژه گوگل را عقب براند.
دیروز، گوگل جدیدترین مدل Gemini 1.5 Pro خود را منتشر کرد (در ادامه در مورد آن بیشتر توضیح خواهیم داد). فقط چند ساعت بعد، OpenAI توجهات را از گوگل به سمت خود جلب کرده و Sora را معرفی کرد – مدل جدید و پیشرفته تبدیل متن به ویدیو.
Sora که از کلمه ژاپنی برای “آسمان” نامگذاری شده است، اولین تلاش OpenAI برای تولید ویدیو توسط هوش مصنوعی است. در یک اعلامیه رسمی، این شرکت گفت که Sora می تواند “صحنه های واقعی و تخیلی را از دستورالعمل های متنی ایجاد کند.” هر ویدیو می تواند حدود یک دقیقه طول بکشد و کیفیت آن چیزی است که برخی آن را شایسته هالیوود مینامند. این ممکن است به دلیل توانایی سورا در خلق صحنه های پیچیده با شخصیت های متعدد و حتی درک احساسات باشد.
OpenAI می گوید تا زمانی که یک تیم قرمز فرصتی برای تجزیه و تحلیل و بررسی دقیق آسیب پذیریهای مدل نداشته باشد، Sora برای عموم منتشر نخواهد شد. در حالی که به طور رسمی اعلام نشده اما Sora احتمالاً به عنوان بخشی از ChatGPT منتشر میشود، جایی که میتوانید ویدیوها را با پیامهای متنی ساده تولید کنید.
اگر میخواهید عظمت این دستاورد را درک کنید در نظر بیاورید که سال گذشته در همین زمانها ما به سختی میتوانستیم تصاویر واقعی را با هوش مصنوعی تولید کنیم. حالا با سرعتی باورنکردنی در آستانه تولید فیلم توسط هوش مصنوعی قرار گرفتهایم و این سرعت در حرکت رو به جلو شگفتانگیز است.
اگر میخواهید درستی جمله بالا را درک کنید، چند ویدیوی اولیه تولید شده توسط سورا را که OpenAI در وب سایت خود به اشتراک گذاشته بررسی کنید.