الذكاء الاصطناعي يتعلم الربط بين الصوت والصورة من دون تدخل بشري

الذكاء الاصطناعي يتعلم الربط بين الصوت والصورة من دون تدخل بشري

نموذج ذكاء اصطناعي جديد يربط الصوت بالصورة بدقة من دون الحاجة الى تدخل بشري.
الذكاء الاصطناعي يتعلم الربط بين الصوت والصورة من دون تدخل بشري
صورة تعبيرية
Smaller Bigger

طور باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) نموذجاً جديداً للذكاء الاصطناعي قادراً على فهم العلاقة بين الصوت والصورة في مقاطع الفيديو من دون الحاجة إلى بيانات معنونة أو تدخل بشري. النموذج يُعرف باسم CAV-MAE Sync، ويمثل خطوة مهمة نحو تطوير أنظمة ذكية تتفاعل مع العالم كما يفعل البشر.

يعتمد هذا النموذج على تقنيات تعلم متعددة الوسائط، بحيث يعالج المعلومات السمعية والبصرية بشكل متزامن. وخلافاً للنماذج السابقة التي كانت تربط الصوت والصورة كمجموعة واحدة، يميز النموذج الجديد كل جزء صوتي على حدة ويربطه بالإطار البصري الموافق له، مما يسمح بفهم دقيق للتزامن بين الحدثين.

جرى تعزيز أداء النموذج من خلال دمج هدفين تعليميين: الأول يركز على التمييز بين المشاهد المتشابهة، والآخر على استرجاع التفاصيل الدقيقة. ولتحقيق ذلك، أدخل الباحثون تمثيلات رمزية جديدة تسمح للنموذج بالتعامل مع كل مهمة بكفاءة واستقلالية أكبر.

 

 

أثبت CAV-MAE Sync تفوقه في مهمات تصنيف المشاهد السمعية-البصرية واسترجاعها، مثل ربط صوت طائرة تقلع أو آلة موسيقية تُعزف بالصورة المطابقة. كما تفوق على نماذج أكثر تعقيداً رغم استخدامه بيانات تدريب أقل.

هذا التطور قد يُستخدم مستقبلاً في مجالات متعددة، منها الروبوتات والتطبيقات الإعلامية، وقد يمهد الطريق لدمج النص والصوت والصورة ضمن نماذج لغوية ذكية متعددة الوسائط.

الأكثر قراءة

العالم العربي 2/10/2026 11:45:00 AM
ينعقد مجلس النواب ظهر اليوم للنظر في التعديل الوزاري
شمال إفريقيا 2/10/2026 11:07:00 PM
يقول رئيس الهيئة العامة السورية للاجئين في مصر تيسير النجار، في حديث لـ"النهار": "أفادت التقارير التي بلغتنا بأن عمليات الترحيل تحدث بالفعل، ونسمع من إخوة لنا عمّا يحصل".
دوليات 2/9/2026 8:03:00 PM
محامي غيسلين ماكسويل يطلب العفو لموكلته مقابل"الرواية الكاملة" لإبستين ويؤكد براءة ترامب وكلينتون
ايران 2/9/2026 10:36:00 PM
قطع بث كلمة بزشكيان يثير جدلاً ويكشف توتراً مكتوماً مع إعلام يتبع للمرشد