من خلال التحليل العميق لصورة أو لقطة فيديو

نظام يستخلص مكونات وجبات الطعام وطريقة طهوها في 3.2 ثوانٍ

المصدر:

القاهرة - الإمارات اليوم

التاريخ: 28 يناير 2020

طور فريق من علماء مختصون بالذكاء الاصطناعي في شركة «فيس بوك»، نظاماً جديداً أطلقوا عليه نظام «الطبخ العكسي»، والقادر على استخلاص المكونات الكاملة لأي وجبة طعام من خلال التحليل العميق لصورة أو لقطة فيديو ملتقطة للوجبة، ثم التعرف إلى طريقة طهوها بتفاصيلها وخطواتها كاملة، وذلك في غضون 3.2 ثوان من وضع الصورة أمام نظام «الرؤية بالحاسب» داخل النظام، المزود ببيانات تخص 350 ألف وجبة طعام من مختلف أنحاء العالم، و250 ألف كلمة فريدة دالة على المكونات والعناصر المختلفة لتلك الوجبات.

ونشرت غرفة الأخبار في الموقع الرسمي لـ«فيس بوك» تقريراً حول النظام الجديد، مشيرة إلى أنه جاء في إطار مشروع بحثي أوسع نطاقاً، بدأ تنفيذه اثنان من علماء الذكاء الاصطناعي في «فيس بوك» هما الدكتور ميشيل دروزدال، وأدريانا روميرو.

«الرؤية بالحاسب»

ووفقاً للموقع، فإن النظام الجديد يستهدف الوصول الى سلسلة من الآلات التعليمية التي تحقق رؤية أفضل للعالم وفهمه بصورة أعمق، والتي تعمد على تقنية «الرؤية بالحاسب» وأحدث تقنيات استخراج المعلومات من الصور ومقاطع الفيديو الرقمية، لمنح الحاسبات مستوى عالياً من الفهم للعالم المرئي، والوصول إلى تطبيقات ذكية تسمح بتحديد أنواع النباتات والحيوانات والظواهر الطبيعية المختلفة، أو حتى فحص بطاقة الائتمان الخاصة بالمستخدم، بحيث لن تضطر إلى الضغط على جميع الأرقام.

الذكاء الاصطناعي

وأوضحت «فيس بوك» أن النظام يمكنه تحليل صورة للطعام ثم إنشاء وصفة من البداية، إذ لا يكون مطلوباً من المستخدم عند استخدام النظام سوى أن يلتقط صورة لوصفة أو طبق معين، وخلال 3.2 ثوان، يمكن للنظام تحليل الصورة والوقوف على جميع أسرار هذه الوجبة، وإنشاء قائمة بالمكونات والعناصر المستخدمة فيها، فضلاً عن الخطوات اللازمة لطهوها.

وأضافت أنه يتم في ذلك استخدام شبكتين عصبيتين، أو اثنتين من خوارزميات الذكاء الاصطناعي المتقدمة، المصممة للتعرف إلى الأنماط في الصور الرقمية، سواء كانت سعفة سرخس أو ألغازاً طويلة أو أحرفاً منقوشة، إذ تقوم الشبكة العصبية الأولى بتحديد المكونات الداخلة في تكوين الوجبة، فيما تقوم الأخرى باستنباط طريقة الطهو.

نظام متقدم

وبحسب الدكتور دروزدال فإن نظام «الطبخ العكسي» يعتبر أكثر تقدماً وفاعلية بكثير من النظم الحالية للتعرف إلى الأطعمة، التي تعمل بتقنية «استرجاع الصور إلى الوصفات»، حيث يتم فيها مقارنة صورة الوجبة المقدمة بصورة أخرى للوجبة نفسها موضوعة في قاعدة بيانات النظام، ومرتبطة ببيانات خاصة بهذه الوجبة، لكن النظام الجديد بالذكاء الاصطناعي، يحلل الصورة ويتعرف إلى ما فيها من أنماط بالغة الدقة الدقة والصغر، ثم يقوم بالتنبؤ بالمكونات من خلال تعلم التعرف إلى الانماط، وبعد ذلك يولد خطوات الوصفة وطرق الطهو بنفسه لا استرجاعها من قاعدة البيانات، وكل ذلك من خلال عمليات تعلم وتدريب مستمر يكتسبها النظام بنفسه عبر تقنية «تعلم الآلة». وأضاف أن حزمة البيانات الأساسية المستخدمة في تدريب النظام على القيام بهاتين الخطوتين ـ بناء قائمة مكونات الوجبة وتوليد طرق طهوها ـ تتكون من بيانات 350 ألف وجبة، و250 ألف مفردة فريدة من نوعها، تصف المكونات، وبعد ذلك يضيف اليها النظام ما يتعلمه من أشياء جديدة في كل مرة يقوم فيها بتحليل صور وفيديوهات الوجبات.

صعوبة

وأكد دروزدال أن التعرف إلى الطعام هو أحد أصعب مجالات فهم الصورة الطبيعية، سواء من لقطة ثابتة أو من لقطة فيديو، لأن الطعام يأتي في حالة يطلق عليها علماء الذكاء الاصطناعي «التباين الكبير داخل الطبقة»، لأن مظهر كل عنصر من العناصر المكونة للوجبة يتغير عند طهوه.

الاختلاف مع الأنظمة السابقة

كانت البرامج السابقة لتحويل الصور إلى وصفة طعام أكثر بساطة في طريقة عملها، حيث تعمل بطريقة أشبه بما يقوم به أمناء المكتبات، حينما ينظرون إلى صورة، ثم يقارنونها بصور موجودة لديهم في ملف، وحينما يعثرون على صورة مشابهة لها، يقومون في البحث داخل كتاب ضخم من الطبخ، للوصول الى البيانات الخاصة بهذه الصورة. وبطبيعة الحال، يعتمد نجاح هذه الطريقة على حجم وجودة كتاب الطهي، والعمل اليدوي لكل من المصور و«الشيف»، وبعض الحظ، لأنه من الصعب أن تكون النتائج صحيحة، إذا كانت الوصفة غير موجودة في مجموعة البيانات.

أما نظام «الطبخ العكسي»، فيتعامل مع الصورة على طريقة الطاهي الماهر، الذي ينظر إلى الوجبة، فيستطيع أن يتنبأ بكل دقائقها وخطوات إعدادها، بناء على ما تعلمه واختزنه في ذاكرته حول الطبخ. أو بعبارة أخرى تعمل الشبكات العصبية على التنبؤ بالمكونات وطرق الطهو، بعد تدريبها على التعرف إلى عناصر ومكونات الوجبات.

تويتر