تكنولوجيا و علوم

جيميناي يحصل على ميزة إنشاء الفيديوهات Veo 2 باللغة العربية

أطلقت جوجل رسمياً ميزة Veo 2 لتوليد مقاطع الفيديو باستخدام الذكاء الاصطناعي باللغة العربية والإنجليزية، وهي نموذج لتوليد الفيديوهات، سيكون متاحاً في Gemini Advanced، لمختلف المستخدمين حول العالم في دول من ضمنها مصر والإمارات والسعودية.

ويأتي هذا التوسّع الإقليمي بعد نحو عام من الإعلان العالمي الأول عن النموذج، ليتيح للمستخدمين في المنطقة إنشاء مقاطع فيديو انطلاقاً من أوامر نصية باللغة العربية، إذ أطلقت جوجل نموذجها الذكي في ديسمبر الماضي بشكل محدود باللغة الإنجليزية في الولايات المتحدة.

ويُعد نموذج Veo 2 من النماذج المتقدمة التي طوّرتها جوجل لتوليد الفيديوهات عبر الذكاء الاصطناعي، ويتميز بقدرته على فهم أوصاف نصية مفصلة وتحويلها إلى مشاهد بصرية بدقة عالية.

ويستند النموذج إلى تقنيات تتعامل مع حركة الإنسان وفيزياء الواقع، ما يساعد على إنتاج مشاهد أكثر واقعية وتنوعاً من حيث الأسلوب البصري.

والميزة المدمجة ضمن تجربة جيميناي على الأجهزة المحمولة والويب، تمكّن المستخدم من إنشاء مقاطع فيديو تصل مدتها إلى 8 ثوانٍ، بدقة 720p، وبتنسيق MP4 بنسبة عرض إلى ارتفاع 16:9. وتُوسم هذه المقاطع بعلامة رقمية تحمل اسم SynthID، تُدرج في كل إطار، وتُستخدم للإشارة إلى أن الفيديو تم إنشاؤه بواسطة الذكاء الاصطناعي.

كما يوفّر النموذج أدوات تحكم إضافية في التكوين البصري، من بينها توجيه الكاميرا رقمياً للحصول على لقطات سينمائية مثل التحريك البانورامي أو التأثيرات الزمنية، ما يتيح للمستخدمين إنتاج محتوى بصري أكثر تنوعاً واحترافية.

قدرات فائقة

يتميّز نموذج Veo 2 من Google بقدرته على إنتاج مقاطع فيديو عالية الجودة بأساليب وأنماط بصرية متعددة، إذ أثبت في اختبارات المقارنة المباشرة أمام نماذج رائدة أخرى تفوقه من حيث الجودة والدقة بحسب تقييمات بشرية.

ويعتمد النموذج على فهم متقدّم لفيزياء العالم الحقيقي وتعقيدات حركة الإنسان وتعبيراته، ما ينعكس في التفاصيل الدقيقة والواقعية العالية التي يقدمها في كل مشهد.

كما يتمتع Veo 2 بقدرة على التعامل مع لغة السينما بشكل متقن، إذ يمكن للمستخدم تحديد النوع الفني، نوع العدسة، والتأثيرات السينمائية المطلوبة، ليقوم النموذج بتنفيذ المشهد بدقة تصل إلى دقة 4K، وبطول قد يمتد لعدة دقائق.

من خلال Veo 2، يمكن تنفيذ لقطات سينمائية معقدة مثل لقطات تتبع من زوايا منخفضة، أو مشاهد مقرّبة تُبرز تعبيرات الوجه الدقيقة، بالإضافة إلى تخصيص خصائص التصوير مثل العمق الضحل للمجال (Shallow Depth of Field)، أو استخدام عدسات معينة مثل 18 ملم أو 35 ملم لإضفاء تأثيرات بصرية خاصة.

ويُظهر النموذج مرونة كبيرة في تنفيذ المشاهد، بدءاً من بيئات طبيعية هادئة مروراً بتفاصيل الحياة اليومية أو لقطات فنية، وصولاً إلى تأثيرات تجريدية متقدمة، مع تقليل واضح في ظهور الأخطاء أو التفاصيل غير المرغوب بها التي تشيع في نماذج الفيديو الأخرى.

ويمكن الوصول إلى هذه الميزة من خلال تطبيق Gemini أو عبر متصفح الإنترنت، مع توفر توثيق تقني إضافي عبر منصتي Google AI Studio وVertex AI.

ويُتوقع أن تسهم هذه الخطوة في توسيع استخدام أدوات الذكاء الاصطناعي لتوليد المحتوى باللغة العربية، في ظل تزايد الاهتمام بتطبيقات الذكاء الاصطناعي في المنطقة.

المصدر

زر الذهاب إلى الأعلى
error: