استخدمت شركة غوغل الذكاء الصناعي لإنشاء أدق برنامج لقراءة الشفاه موجود في الوقت الحالي، وجرى بناء هذا البرنامج بالتعاون بين الباحثين في قسم DeepMind للذكاء الصناعي في شركة غوغل مع جامعة أكسفورد للذكاء الصناعي. وعمل العلماء على استخدام 5 آلاف ساعة من البرامج التلفزيونية التابعة لهيئة الإذاعة البريطانية البي بي سي لتدريب الشبكة العصبية على إضافة تعليق توضيحي للقطات الفيديو بدقة تصل إلى 46.8%. ورغم أن هذه النسبة قد لا تثير الإعجاب لا سيما بالمقارنة مع معدلات دقة الذكاء الصناعي عند التدوين الصوتي، إلا أن هذه النسبة تعتبر إنجازاً كبيراً عند مقارنتها بنسبة 12.4 في المئة من الكلمات التي يمكن للعنصر البشري المحترف في قراءة الشفاه معرفتها. تأتي هذه الأبحاث بعد قيام مجموعة أخرى من جماعة أكسفورد بالعمل على أبحاث مماثلة منشورة في وقت سابق من هذا الشهر، حيث تمكن أولئك العلماء من إنشاء برنامج لقراءة الشفاه يدعى LipNet باستخدام تقنيات ذات صلة. وحقق البرنامج دقة بلغت 93.4 في المئة خلال الاختبارات، بالمقارنة مع دقة 52.3 في المئة التي حققها الإنسان البشري، وتم اختبار البرنامج على لقطات فيديو سجلت خصيصاً واستخدمت متطوعين يتحدثون جملاً رسمية.بينما تم على سبيل المثال اختبار برنامج DeepMind على لقطات فيديو أكثر صعوبة بكثير، والتي احتوت على الاختزال الطبيعي ومحادثات مرتجلة من برامج بي بي سي السياسية. وتضمنت مقاطع الفيديو التي تم تدريب البرنامج عليها على 118 ألف جملة مختلفة و17500 كلمة فريدة من نوعها.
مشاركة :