گوگل veo3.1 را رونمایی کرد

گوگل نسخه جدید مدل تولید ویدیو مبتنی بر هوش مصنوعی خود، یعنی Veo 3.1 را معرفی کرد. این بهروزرسانی، قابلیتهای جدیدی را به ابزار ویرایش ویدیو Flow اضافه کرده است که به کاربران امکان میدهد تا ویدیوهای واقعگرایانهتری با صداهای طبیعیتر و کنترلهای دقیقتری تولید کنند.
به گزارش خبرگزاری ایمنا و به نقل از د ورج، گوگل در پانزدهم اکتبر ۲۰۲۵ مدل بهروزرسانیشده تولید ویدیوی هوش مصنوعی خود با نام Veo 3.1 را بهصورت رسمی معرفی کرد، این مدل که بر پایه Veo 3 (معرفیشده در مه ۲۰۲۵) ساخته شده، پیشرفتهای قابلتوجهی در کیفیت صدا، واقعگرایی تصویر و کنترل روایی ارائه میدهد و از طریق Gemini API، Vertex AI، برنامه Gemini و ابزار ویرایش Flow در دسترس است.
ویژگیهای کلیدی Veo 3.1
افزایش واقعگرایی و جزئیات تصویری
Veo 3.1 با بهبود درک نورپردازی، سایهها و بافتهای واقعی، ویدیوهایی با جزئیات بیشتر و واقعگرایانهتر تولید میکند. مدل جدید همچنین تبعیت بهتری از دستورات (prompt adherence) دارد، به این معنی که نتایج تولیدشده با توضیحات متنی کاربران همخوانی بیشتری دارند. این بهبود به کاهش منابع محاسباتی غیرضروری نیز منجر میشود.
تولید صدای پیشرفته و همگام
یکی از برجستهترین پیشرفتهای Veo 3.1، تولید صدای بومی غنیتر (richer native audio) است که شامل مکالمات طبیعی، افکتهای صوتی همگامشده، صداهای محیطی و موسیقی میشود. در Veo 3، قابلیتهایی همچون Ingredients to Video، Frames to Vide و Scene Extension بدون صدا بودند و کاربران مجبور بودند صدا را بهصورت دستی اضافه کنند. با Veo 3.1، تمام این قابلیتها اکنون با صدای تولیدشده خودکار همراه هستند.
پشتیبانی از فرمتهای افقی و عمودی
برخلاف Veo 3 که تنها فرمت افقی ۷۲۰p را پشتیبانی میکرد، Veo 3.1 هم اکنون میتواند ویدئوهای افقی (۱۶:۹) و عمودی (۹:۱۶) تولید کند، این قابلیت برای تولید محتوا در پلتفرمهایی همچون TikTok، Instagram Reels و YouTube Shorts که از فرمت عمودی استفاده میکنند، ضروری است. مدل میتواند ویدیو در وضوح ۷۲۰p یا ۱۰۸۰p با سرعت ۲۴ فریم در ثانیه تولید کند.
طول کلیپها و قابلیت تمدید
هر کلیپ تولیدشده توسط Veo 3.1 میتواند ۴، ۶ یا ۸ ثانیه طول داشته باشد. با این حال، قابلیت Extend (تمدید) به کاربران اجازه میدهد ویدئوهای طولانیتر—حتی بیش از یک دقیقه—ایجاد کنند. این کار با ادامه حرکت و عمل از ثانیه آخر کلیپ قبلی انجام میشود. در Gemini API، امکان تمدید ویدئوهای Veo تا ۱۴۱ ثانیه با افزودن ۷ ثانیه در هر مرحله (تا ۲۰ بار) وجود دارد.
قابلیتهای خلاقانه پیشرفته در Flow
Ingredients to Video (ترکیب تصاویر مرجع)
این قابلیت به کاربران اجازه میدهد تا سه تصویر مرجع از یک شخصیت، شیء یا صحنه ارائه دهند. Flow از این مواد اولیه برای ایجاد صحنه نهایی استفاده میکند و هویت بصری را در طول ویدیو حفظ میکند، این ویژگی اکنون با صدای تولیدشده خودکار همراه است.
Frames to Video (تولید انتقال بین فریمها)
با ارائه یک تصویر شروع و یک تصویر پایان، Flow ویدیوی یکپارچهای را بین این دو فریم تولید میکند. این قابلیت برای ایجاد انتقالات هنری و حماسی مناسب است و اکنون بهصورت همزمان صدا نیز تولید میکند.
Insert و Remove (افزودن و حذف اشیا)
قابلیت Insert به کاربران امکان میدهد عناصر جدیدی (از جزئیات واقعگرایانه تا موجودات خیالی) را به صحنه اضافه کنند. Veo 3.1 جزئیات پیچیدهای همچون سایهها و نورپردازی صحنه را مدیریت میکند تا افزودهها طبیعی به نظر برسند.
قابلیت Remove (حذف اشیا) که بهزودی در Flow عرضه خواهد شد، به کاربران اجازه میدهد هر شیء یا شخصیت ناخواستهای را از صحنه حذف کنند و Flow پسزمینه و محیط اطراف را بازسازی میکند، بهگونهای که انگار شیء هرگز وجود نداشته است. این قابلیت در حال حاضر از طریق Vertex AI با استفاده از روش mask + prompt قابل دسترسی است.
دسترسی، قیمتگذاری و امنیت
کانالهای دسترسی
Veo 3.1 از طریق چندین کانال در دسترس است:
- Flow: ابزار ساخت فیلم مبتنی بر هوش مصنوعی گوگل که از زمان راهاندازی در مه ۲۰۲۵، بیش از ۲۷۵ میلیون ویدیو تولید کرده است.
- برنامه Gemini: برای کاربران عادی با دسترسی محدود یا نامحدود بسته به طرح اشتراک.
- Gemini API: برای توسعهدهندگان که میخواهند قابلیتهای ویدئویی را در برنامههای خود ادغام کنند.
- Vertex AI: برای مشتریان سازمانی که به راهحلهای سفارشیشده و مقیاسپذیر نیاز دارند.
- گوگل همچنین نسخه سریعتر مدل به نام Veo 3.1 Fast را ارائه میدهد که برای نمونهسازی سریع و نیازهای حجم بالا طراحی شده است.
قیمتگذاری
قیمت Veo 3.1 مشابه Veo 3 است. بر اساس اطلاعات منتشرشده، Veo 3 از طریق API با قیمت حدود ۰.۷۵ دلار به ازای هر ثانیه ویدیوی تولیدشده همراه با صدا عرضه میشود. بهعنوان مثال، یک کلیپ ۸ ثانیهای حدود ۶ دلار هزینه دارد.
برای کاربران عادی، گوگل طرحهای اشتراک ارائه میدهد:
- Google AI Pro (۱۹.۹۹ دلار در ماه): دسترسی به Veo 3.1 Fast از طریق برنامه Gemini و Flow.
- Google AI Ultra (۲۴۹.۹۹ دلار در ماه): دسترسی به Veo 3.1 کامل از طریق Gemini و Flow
پلتفرمهای شخص ثالث نیز Veo 3.1 را ارائه میدهند. بهعنوان مثال، Kie.ai ویدیوهای Veo 3.1 Fast را با قیمت ۰.۴۰ دلار برای هر ویدیوی ۸ ثانیهای عرضه میکند—که بیش از ۶۰٪ ارزانتر از Replicate و Fal.ai است.
واترمارک و امنیت محتوا
تمام ویدیوهای تولیدشده توسط Veo 3.1 با استفاده از فناوری SynthID گوگل واترمارک میشوند. SynthID یک واترمارک دیجیتال نامرئی است که در پیکسلهای ویدیو تعبیه میشود و برای شناسایی محتوای تولیدشده توسط هوش مصنوعی استفاده میشود. علاوه بر این، گوگل یک واترمارک قابل مشاهده کوچک در گوشه پایین سمت راست ویدئوها قرار میدهد (بهجز برای کاربران Google AI Ultra در Flow).
واترمارک SynthID قوی و مقاوم در برابر حذف است، اما واترمارک قابل مشاهده میتواند بهراحتی برش داده شود یا تغییر کند. با این حال، هدف اصلی شفافیت و قابلیت ردیابی محتوای AI است.
مقایسه با رقیب: Veo 3.1 در برابر Sora 2
طول و کیفیت ویدیو
Veo 3.1 کلیپهایی با طول ۴ تا ۸ ثانیه تولید میکند، در حالی که Sora 2 از OpenAI میتواند کلیپهای طولانیتر (تا ۱۲ ثانیه) ایجاد کند. با این حال، Veo 3.1 با قابلیت تمدید، میتواند ویدیوهای بیش از یک دقیقه تولید کند.
واقعگرایی و سبک تصویر
Sora 2 در تولید ویدیوهای واقعگرایانه با حرکات انسانی روان، نورپردازی طبیعی و فیزیک دقیق برتری دارد. کارشناسان توضیح میدهند که Sora 2 در «میکرو-واقعگرایی» عالی است، در حالی که Veo 3.1 مزیت «ماکرو» دارد: زمان اجرای طولانیتر و روایت روانتر. برخی منتقدان اشاره میکنند که زیباییشناسی Veo 3.1 بیشتر سینمایی و «صیقلی» است، که ممکن است نسبت به Sora 2 که در تولید ویدیوهای «دستی» و «خودجوش» تبحر دارد، «مصنوعیتر» به نظر برسد.
صدا و دیالوگ
Veo 3.1 کیفیت صدای قابلتوجهی دارد—یک آزمایشکننده گزارش داد که صدای Veo 3.1 «تقریباً در سطح استودیو» است. Mashable در مقایسهای گزارش داد که «دیالوگ Veo 3 بسیار زندهتر و واقعیتر بود». Sora 2 نیز صدای بومی با همگامسازی لب دارد، اما بررسیهای کاربران نشان میدهد که Veo 3.1 در این حوزه برتری دارد.
ابزارهای کنترل و تداوم
Veo 3.1 ابزارهای صریحتری برای حفظ تداوم ارائه میدهد، از جمله تا سه تصویر مرجع، کنترل فریم اول و آخر، و تمدید ویدیو. Sora 2 بر بهبود فیزیک و انسجام زمانی تمرکز دارد، اما ابزارهای کنترل تصویر مرجع صریح در مستندات عمومی آن ذکر نشده است.
دسترسی و عرضه
Veo 3.1 از طریق Gemini API و Vertex AI بهطور گستردهتر در دسترس است. برنامه Sora 2 در اکتبر ۲۰۲۵ فقط با دعوتنامه قابل دسترسی بود و API آن هنوز بهطور عمومی در دسترس نیست.
قیمتگذاری
Veo 3.1 در حال حاضر گرانترین مدل تولید ویدیو است و با Sora 2 برابری میکند، تنها Sora 2 Pro گرانتر است که بیش از دو برابر قیمت دارد.
پیامدها برای صنعت و کاربران
خالقان محتوای کوتاهمدت
برای تولیدکنندگان محتوا در TikTok، Reels و Shorts، Veo 3.1 با محدودیت ۸ ثانیهای برای تیزرها و هوکها مناسب است. قابلیت تولید همزمان فرمت عمودی با صدا، جریان کار تولید را ساده میکند.
بازاریابان و تیمهای برند
شخصیتها و محصولات سازگار در طول کلیپها برای بازاریابان حیاتی هستند. تصاویر مرجع Veo 3.1 و کنترلهای فریم اول / آخر به حفظ هویت و تداوم کمک میکنند. این میتواند هزینههای تولید ویدیوهای تبلیغاتی، آموزشی و بازاریابی را بهشدت کاهش دهد. venturebeat+1
کسبوکارهای کوچک و آموزش
گوگل تأکید کرده است که Flow و Veo 3.1 برای دموکراتیزه کردن ساخت فیلم طراحی شدهاند، و به کسبوکارهای کوچک، معلمان و سازندگان مستقل ابزارهایی میدهند که قبلاً فقط برای استودیوهای بزرگ در دسترس بود. با این حال، نگرانیهایی درباره سوءاستفاده از این فناوری برای تولید اطلاعات غلط و محتوای جعلی وجود دارد.
فیلمسازان مستقل و انیماتورها
برای روایتهای فراتر از یک کلیپ، سازندگان باید یک خط تولید چندمرحلهای بسازند: صحنههای خود را برنامهریزی کنند، چندین کلیپ تولید کنند و آنها را با رنگ، دانهبندی و صداهای ثابت به هم بپیوندند. ابزار فریم اول/آخر Veo 3.1 میتواند مفاهیم را به هم متصل کند، در حالی که انسجام حرکتی Sora 2 میتواند اکشنهای پیچیده را به خوبی نمایش دهد.
چالشها و نگرانیها
کیفیت و محدودیتهای نامطمئن
بر اساس نمونههای به اشتراک گذاشتهشده توسط گوگل، ویدیوهای تولیدشده با Veo 3.1 هنوز کیفیتی «عجیب» (uncanny) دارند که بهشدت بسته به دستور و موضوع متفاوت است. حتی اگر برخی از واقعگرایی Sora 2 را نداشته باشد، تصمیم گوگل برای تمرکز بر سودمندی برای افرادی که واقعاً با ویدیو کار میکنند—بهجای تبدیل به منبعی برای هرزنامههای رسانههای اجتماعی—یک حرکت خوشایند است.
اطلاعات غلط و محتوای جعلی
تعیین اصالت در اینترنت بهطور فزایندهای چالشبرانگیز میشود و معرفی Veo 3.1 توسط گوگل کمکی به کاهش این نگرانی نمیکند. با افزایش قدرت و دسترسی به ابزارهای تولید ویدیوی هوش مصنوعی، خطر سوءاستفاده برای ایجاد ویدیوهای جعلی، اطلاعات غلط و محتوای گمراهکننده افزایش مییابد. درست در همین زمان، Elon Musk و xAI در حال کار بر روی مکانیزمهای تشخیص ویدیوی هوش مصنوعی قویتر در Grok هستند.
دسترسی محدود در برخی مناطق
دسترسی به Veo 3.1 بسته به کشور و سطح محصول (برنامه Gemini، Flow، API/Vertex) متفاوت است. گوگل محدودیتهایی برای تولید افراد در اتحادیه اروپا، بریتانیا، سوئیس و خاورمیانه اعمال کرده است.
Veo 3.1 گوگل یک پیشرفت قابلتوجه در فناوری تولید ویدیوی مبتنی بر هوش مصنوعی است که ترکیبی از واقعگرایی بصری، تولید صدای پیشرفته و ابزارهای کنترل خلاقانه را ارائه میدهد. با قابلیتهایی همچون حفظ شخصیتها، کنترل فریمها، افزودن و حذف اشیا، و تمدید کلیپها، Veo 3.1 سازندگان را قادر میسازد محتوای سینمایی با کیفیت حرفهای تولید کنند.
دسترسی گسترده از طریق Flow، Gemini و Vertex AI، همراه با تولید بیش از ۲۷۵ میلیون ویدیو در پنج ماه، نشاندهنده پذیرش سریع و علاقه قابلتوجه است. با این حال، چالشهایی همچون کیفیت نامطمئن، نگرانیهای اطلاعات غلط، قیمت بالا و دسترسی محدود در برخی مناطق همچنان باقی است.
در مقایسه با Sora 2، Veo 3.1 مزایای واضحی در کنترل روایی، کیفیت صدا و ابزارهای تداوم دارد، در حالی که Sora 2 در واقعگرایی فیزیکی و حرکات انسانی برتری دارد. انتخاب بین دو مدل به نیازهای خاص پروژه—آیا اولویت با واقعگرایی میکروسکوپی است یا کنترل روایی و طول کلیپ—بستگی دارد.
با ادامه توسعه و بهبود Veo 3.1، گوگل به رقابت شدید در بازار تولید ویدیوی هوش مصنوعی ادامه میدهد و ابزارهایی قدرتمند برای خالقان، بازاریابان، معلمان و فیلمسازان فراهم میکند تا خلاقیت خود را به سطح جدیدی ارتقا دهند.
کد خبر 915542