يمكنها التعرف إلى محتوى الصورة ومقطع الفيديو ووصفه بدقة

باحثون يكشفون عن تطوّر في برمجيات تمييز الصور

صورة

طورت مجموعتان من الباحثين، من جامعة «ستانفورد» الأميركية وشركة «غوغل»، عملت كل منهما بشكل مستقل، برمجية بمقدورها التعرف إلى محتوى الصور ومقاطع الفيديو، ووصفه بمستوى من الدقة يفوق ما توافر سابقاً، وبدرجة تحاكي أحياناً الأساليب البشرية في الفهم، ما يمثل تطوراً مقارنةً بالإمكانات الحالية للرؤية الحاسوبية المعنية بفهم صور من العالم الحقيقي وتحليلها وتحويلها إلى بيانات رقمية.

وحتى الآن، اقتصر الأمر على التعرف إلى العناصر المنفردة في الصور كالأشجار والقطط، بينما يمكن للبرامج الجديدة تحليل محتوى الصور، وتوليد وصف للمشهد بأكمله باللغة الإنجليزية كوجود مجموعة من الشباب يلعبون رياضة «الفريسبي»، أو تضمن صورة لقطيع من الفيلة يسير على سهل عشبي. ومن خلال مقارنة الأوصاف بالملاحظات البشرية، تبين للباحثين دقة أوصاف البرمجيات.

وستسمح هذه التطورات بتحسين طرق فهرسة مليارات الصور ومقاطع الفيديو المتوافرة على الإنترنت والبحث فيها. وحتى الوقت الراهن، تعتمد محركات البحث مثل «غوغل»، إلى حد كبير، على البحث في النصوص المصاحبة للصور أو الفيديو للتأكد من محتواها.

وقالت مديرة مختبر الذكاء الاصطناعي في جامعة «ستانفورد»، الدكتورة في في لي، حيث أجرى المختبر البحث بالاشتراك مع طالب الدراسات العليا، أندريه كارباثي، «أعتبر (البيكسل) أو (الوحدات المصغرة المكونة للصور)، في الصور والفيديو بمثابة المادة المظلمة للإنترنت، والآن نبدأ بتسليط الضوء عليها».

ونشر لي وكارباثي البحث كتقرير فني صادر عن جامعة «ستانفورد»، في حين نشر فريق باحثي «غوغل» الدراسة في موقع arXiv.org، وهو موقع مفتوح المصدر للأوراق العلمية تستضيفه جامعة «كورنيل» الأميركية.

وعلى المدى الطويل، ربما تقود الأبحاث الجديدة إلى تقنيات تساعد المكفوفين و«الروبوتات» على التجول في البيئات الطبيعية، لكنها في الوقت نفسه تُثير الكثير من المخاوف بشأن احتمالات استخدامها في المراقبة.

وخلال السنوات الـ15 الماضية، تزايد انتشار كاميرات الفيديو في الكثير من الأماكن العامة والخاصة، وحسب خبراء ربما يشهد المستقبل تطور البرمجيات التي تتحكم في الكاميرات لتتمكن، ليس فقط من تمييز الوجوه، وإنما أيضاً تتعرف إلى سلوكيات محددة، وربما تُنبّه السلطات آلياً.

وسبق أن قدم باحثون في شركة «غوغل» قبل عامين برنامجاً للتعرف إلى الصور إلى جانب 10 ملايين صورة من موقع «يوتيوب»، ودون تدخل بشري تدرب البرنامج على تمييز صور القطط ضمن مقاطع الفيديو.

وحالياً تتعرف برامج الذكاء الاصطناعي المتوافرة في السيارات الحديثة إلى المشاة وراكبي الدراجات من خلال الكاميرات المثبتة أعلى الزجاج الأمامي، ويُمكنها التدخل لإيقاف السيارة تلقائياً إذا لم يقم السائق بالتصرف المُلائم لتفادي الاصطدام.

من جهته، اعتبر عالم الحاسوب في جامعة «واشنطن»، علي فرهادي، الذي نشر أبحاثاً تناولت برمجيات لتوليد الجمل من الصور الرقمية، أن مجرد التعرف إلى العناصر أو الأشياء المنفردة في الصور ليس بالأمر المفيد جداً، وقال: «نركز على الأشياء ونتجاهل الأفعال»، مُضيفاً أن هذه البرمجيات لا تتفهم ما يجري في الصورة.

وعالج فريقا البحث، من «ستانفورد» و«غوغل»، مشكلة التعرف إلى الصور من خلال تحسين برامج تُعرف باسم «الشبكة العصبية» جرى تطويرها استلهاماً من دراسة كيفية عمل الدماغ البشري.

ويمكن للشبكات العصبية تدريب نفسها على اكتشاف أوجه التشابه والأنساق في البيانات، حتى إذا لم يعلم مُبدعوها من البشر أصلاً بوجود هذه الأنساق.

وفي الواقع، تتفوق شبكات الخلايا العصبية في أدمغة الكائنات الحية بفارق كبير للغاية على أفضل الشبكات الحاسوبية في ما يتعلق بالإدراك والتعرف إلى الأنماط.

لكن من خلال التوصل إلى بنية مشابهة نوعاً ما، يُمكن أن ترتفع دقة الحواسيب في التعرف الى الأنماط في الحديث والصور. وتتضح هذه التطورات لمستخدمي منتجات مثل المساعد الشخصي «سيري» من «أبل»، والبحث عن الصور في «غوغل».

ووظف فريقا البحث منهجاً متشابهاً مزج بين نوعين من الشبكات العصبية، تُركز إحداهما على تمييز الصور، وتعنى الأخرى بالتعرف الى اللغة البشرية. واستعان الباحثون في كلتا المجموعتين بمجموعات صغيرة نسبياً من الصور الرقمية المرفقة بشروح وجمل وصفية كتبها البشر. وبعدما تمكنت البرمجيات من رصد الأنساق في الصور والنصوص المصاحبة، كانت الخطوة التالية توجيهها إلى صور مختلفة عن تلك المستخدمة في التدريب. وأمكن للبرنامج التعرف الى الأشياء والأفعال بمستوى من الدقة يفوق بمعدل ضعفين تقريباً نتائج المحاولات السابقة. ومع ذلك، فلايزال يفصلها الكثير عن الاقتراب من إمكانات الإدراك البشري.

وأعرب عالم الحاسوب في «غوغل»، أوريول فنيلاس، وهو أحد المشاركين في الدراسة، إلى جانب ألكسندر توسيف وسامي بنجيو ودوميترو إرهان، عن دهشته من الأداء الجيد للبرنامج بعد تدريبه على قدر صغير من البيانات، وقال إن «المجال ينطلق في الحال، وسنرى الكثير من التطورات». وعلى الرغم من التحسنات الحالية في تقنية تمييز الصور، يرى المختصون في مجال «الرؤية الحاسوبية» أن هذه النظم البرمجية أحرزت تقدماً محدوداً في محاولتها محاكاة الرؤية والفهم البشريين رقمياً.

وقال المدير البارز في «مركز أبحاث واتسون» التابع لشركة «آي بي إم»، جون سميث: «لا أعرف ما إذا كنت سأقول إن هذا فهم بالطريقة والمعنى الذي نريده، أعتقد أنه حتى بالنسبة للقدرة على توليد اللغة، فإنها محدودة جداً».

في المقابل، يتوقع فريقا الباحثين في كلٍ من «ستانفورد» و«غوغل» التوصل إلى تطورات كبيرة في مستوى الدقة مع تدريب البرمجيات على مجموعات أكبر من الصور الرقمية.

وفي السياق نفسه، تقود عالمة الحاسوب في جامعة «نورث كارولينا»، تامارا بيرغ، مجموعة بحثية تُدرب «شبكة عصبية» بالاستعانة بمليون صورة مزودة بأوصاف كتبها البشر، وقالت: «نحاول أن نروي القصة وراء الصورة»، مشيرة إلى أن «المشهد الطبيعي سيكون معقداً جداً، وسترغب في انتقاء العناصر الأكثر أهمية في الصورة».

تويتر