يستهدف الانتقال بعالم البحث إلى مرحلة الصورة اللحظية والفيديو الحي

مشروع طموح لنقل البحث عبر الإنترنت من أسلوب «غوغل» النصي إلى «عصر أمازون» المرئي

خطة «أمازون» تستند إلى توظيف غير مسبوق لتقنيات الذكاء الاصطناعي والتعلم العميق. من المصدر

تنفذ «أمازون» مشروعاً طموحاً تسعى من ورائه إلى تغيير طرق وآليات الإنتاج والتداول والبحث في البيانات والمعلومات، ومن ثم إنتاج المعرفة والحصول عليها، فبدلاً من أن نستخدم كلمة ما مفتاحاً للبحث في ملايين ومليارات الكلمات الأخرى للوصول إلى معلومات أو معرفة محددة، سيتم استخدام صور حية بالفيديو، للبحث في ملايين وربما مليارات صور الفيديو الحية الأخرى، للوصول إلى معلومات أو معرفة ما في اللحظة نفسها، ويتم تنفيذ هذا المشروع بهدوء وبطء، وعبر سلسلة بسيطة من المنتجات المبتكرة.

وبعبارة أخرى، تريد «أمازون» أن تنقل عمليات البحث والمعرفة من «عصر الكلمة» السائد منذ عقود مضت، إلى «عصر الصورة الحية» ليسود، خلال العقود المقبلة، أو بالأحرى الانتقال من «عصر غوغل» النصي إلى عصر «أمازون» المرئي.

ولم تعلن «أمازون» صراحة عن تبنيها لهذا المشروع، ولم تحدد سقفاً زمنياً للتنفيذ أو موارد للإنفاق، أو آليات للمتابعة والتقييم، ولكن هذا تصور عام استخلصه فريق من محللي شبكة «زد دي نت» zdnet.com المتخصصة في تقنية المعلومات، من الخطوات العديدة التي قامت بها «أمازون»، وبعض المنتجات المتفرقة التي طرحتها خلال الفترة الأخيرة، والأفكار المستقبلية التي كشفت عنها، خصوصاً خلال مؤتمر «اخترع» الذي عقدته نهاية العام الماضي، وتم نشره في مقال تحليلي، أخيراً، حول مستقبل شبكة «الويب القديمة»، التي تسعى «أمازون» إلي تفكيكها وإعادة تركيبها باستخدام الذكاء الاصطناعي.

فكرة جوهرية

تركز الفكرة الجوهرية في مشروع «أمازون»، على الانتقال من النص إلى الكاميرا، أو من توليد وتخزين الكلمات وفهرستها والبحث فيها، لاسترجاع المطلوب الوصول إليه منها، إلى رؤية الواقع المحيط وتوليد صور حية بالفيديو، الذي يرصده ويسجله لحظياً، ثم تحليل الفيديو لحظياً بذكاء يقود إلى فهمه ومعرفته والبحث فيه عبر استخدام صور وفيديو أيضاً.

ونجحت «غوغل» بشكل كبير في بناء عالم البحث خلال العقود السابقة عبر النص، فقدمت آلة البحث التي لاتزال تعلن أن مهمتها «تنظيم وفهرسة معلومات وبيانات العالم»، وتمحورت كل عملياتها حول النص، والكلمات المفتاحية التي سرعان ما باتت ركيزة راسخة لتوليد عائدات مالية ضخمة من وراء ربط الإعلانات بالكلمات المستخدمة في عمليات البحث. وحققت «غوغل» من وراء ذلك ثرواتها وعائداتها الضخمة التي فاقت ما تحققه دول بأكملها.

وترتكز خطة «أمازون» بعيدة المدى على قلب هذا الأمر رأساً على عقب، بالانتقال بعالم البحث إلى مرحلة الصورة الحية والفيديو، لتصبح العائدات والإعلانات مرتبطة بالصورة الحية، لا الكلمات المفتاحية النصية، وهو تغير هائل تستند فيه إلي توظيف غير مسبوق لعلوم وتقنيات كل من الذكاء الاصطناعي والتعلم العميق.

العدسات العميقة

ونقطة البداية في مشروع «أمازون»، عبارة عن منتج يدعى «العدسة العميقة»، وفي بعض الأحيان يطلق عليه «الكاميرا العميقة»، وهو في حقيقة الأمر ليس مجرد كاميرا بل حاسب متكامل الأركان، قوامه كاميرا عالية الدقة والحساسية والسرعة، يعمل بمعالج «إنتل اتوم إكس 3»، ونظام تشغيل «لينوكس اوبونتو»، وكاميرا رباعية النواة، ووحدة تخزين وذاكرة إلكترونية بسعة قد تصل إلى ثمانية غيغابايت.

وجرى الكشف عن هذا المنتج، نهاية العام الماضي، خلال مؤتمر «اخترع» الذي نظمته «أمازون»، وبحسب ما قاله الرئيس التنفيذي لخدمات «ويب أمازون»، آندي جاسي، فهذا المنتج عبارة عن نظام رؤية بالحاسب وليس مجرد كاميرا تلتقط صور فيديو حية، بمعنى أن الكاميرا والجهاز نفسه يقومان لحظياً بتحليل ما تلتقطه الكاميرا ليتعرف إليه ويفهمه، ومن ثم فهو «يرى» ويعي ما يقع في طريقه، ولا يسجله أو يلتقطه فقط.

وأضاف: «نؤمن بأنك ستتمكن من البدء في تشغيل أول نموذج تعليمي من الكاميرا العميقة خلال فترة قريبة، وهو نموذج رؤية بالحاسب، يمكنك برمجته لفعل أي شيء يمكن تخيله تقريباً، كأن يعرف ويعي لوحة سيارة مقبلة إلى منزلك ويعرف الشخص الذي يقودها والأشخاص الآخرين على متنها، فيفتح باب المرآب، أو يمكنك برمجته ليرسل لك تنبيهاً إذا ما قفز الكلب على الأريكة بحجرة الاستقبال، وكل ذلك يتم من خلال الصور الحية وفهم ما يدور فيها».

وتابع جاسي: «لكي يصبح قادراً على (الرؤية) بما تتطلبه من قدرات تعينه على التحليل والفهم والوعي، يستعين جهاز (الكاميرا العميقة) بالحوسبة السحابية وخدماتها المختلفة، فهو يتصل بمركز بيانات خلفي عملاق، تتوافر به حاسبات عملاقة ونُظُم ذكاء اصطناعي متطورة، تمده بقوة الحوسبة اللازمة لتحليل الصور والتعرف إليها وفهمها، وفي ذلك يستعين بخطوط اتصال فائقة السعة والسرعة، للتواصل مع المركز الخلفي بكفاءة تضمن تنفيذ التحليل لحظياً، لتتم الرؤية اللحظية».

البيئة المحيطة

ولأن الجهاز يتعامل مع محتوى تلتقطه كاميرا تتجول في البيئة المحيطة، فهو عرضة لأن تصل إليه أعداد كبيرة ومتنوعة ومتواصلة من صور الكائنات وأهداف وأشياء مختلفة، حسب سرعة الكاميرا، وعدد اللقطات أو «الكادرات» التي تلتقطها الكاميرا عالية الحساسية كل ثانية، وهنا يصبح من المطلوب، البحث عن الأنماط السائدة بهذا السيل المتدفق من الصور، للوصول إلى ما يميز كل شيء عن الآخر، فيجعل الجهاز يميز أن هذه قطة، وهذه أريكة وهذا شخص اسمه كذا، يجلس متكئاً على الأريكة ويداعب القطة.

وهنا تستخدم «أمازون» ما يطلق عليه «شبكات المعلومات العصبية»، التي تمارس عملها بطريقة مستوحاة من طريقة عمل الخلايا العصبية بالمخ البشري، والتي تقوم بمعالجة مليارات البيانات في اللحظة الواحدة، بحثاً عن الأنماط السائدة في ما يصل إليها من بيانات، لتميز الأشياء الملتقطة بعدسة العين وتفهمها على نحو سليم بالسياق الذي تحدث به، وطوال الوقت تتدرب وتتعلم وتطور قدراتها وتعمّق معارفها ومهاراتها.

وفي الوقت نفسه، فالجهاز ليس متلقياً سلبياً، بل يقوم بنفسه بجزء لا يستهان به من الأعباء المطلوبة لتحقيق «الرؤية»، ولذلك فهو يستخدم مفهوماً آخر هو «حوسبة الحافة»، أو نقل جزء من عمليات الحوسبة والتحليل والمعالجة للصور الحية، على حافة شبكة الحوسبة السحابية، أو عند طرفها.


منافسة «غوغل»

قال محللون إن «أمازون» تفتح جبهة كبرى للصراع طويل الأجل مع «غوغل»، من أجل السيادة على المستقبل، فقد نشأت «غوغل» وعاشت على فكرة التواصل مع محركات البحث عبر الكلمات، ووجدت طريقها لجني الأرباح من كل طلب بحث، من خلال الإعلانات المستندة إلى ملاءمة الكلمات الرئيسة النصية المكتوبة، وإذا انهارت سوق إعلانات الكلمات الرئيسة النصية، وبرزت سوق إعلانات الصور المرئية، فسيختفي الويب كما نعرفه، ومعه «غوغل» التي نعرفها.

تويتر