«مايكروسوفت» تختبر حلول الذكاء الاصطناعي في المصاعد ومكاتب الاستقبال في مقراتها

سياق المحادثة وطريقة الكلام ضمن طرق تطوير أنظمة الذكاء الاصطناعي

المصدر:

دبي ــ الإمارات اليوم

التاريخ: 18 فبراير 2014

قدمت روايات وأفلام الخيال العلمي تصورات مختلفة للحوارات المتبادلة بين البشر وأنظمة الذكاء الاصطناعي كالعلاقة مع الروبوتات، لكن المقارنة بين تلك الصور والواقع الماثل في مساعد مثل «سيري» من شركة «أبل»، و«غوغل ناو» من «غوغل» يُبين الفارق الكبير في مستوى الذكاء وطبيعة الحوار، الأمر الذي يدفع شركات إلى وضع فهم سياق المحادثة وطريقة الكلام ضمن طرق تطوير أنظمة الذكاء الاصطناعي.

وبينما يُمكن لنظام «سيري» أن يتفهم جيداً طلب أحد المستخدمين نتائج مباريات كرة القدم، أو إضافة اجتماع إلى تقويم مواعيده، أو تشغيل أحد التطبيقات، يكتفي بالبحث على الإنترنت عن بقية الأشياء التي لا يتمكن من فهمها، ما يبدو بعيداً جداً عن إجراء محادثات طبيعية كالتي ظهرت في فيلم «هال» عام 2001، وفي فيلم «هير» أو «هي» الذي طُرح أواخر العام الماضي، ويعرض قصة شخص يقع في حب «سامانثا» التي تمثل صوت مساعده الشخصي الافتراضي.

وعبّر عن ذلك أستاذ هندسة المعلومات في جامعة «كامبريدج» البريطانية، ستيف يونج، بقوله: «تُدرك كلٌ من (غوغل) و(أبل) بألم أنَّ أنظمتهما لا تتطور بسرعة كافية؛ لأنه حالياً تجري برمجة (سيري) و(غوغل ناو) وهذا النوع من تطبيقات المساعد الشخصي يدوياً».

وأضاف جونز لموقع «بي بي سي» أن المساعد الافتراضي «سيري» يبدو ذكياً نسبياً عند الحديث عن البيسبول، لكنه لا يبدو على النحو نفسه عند سؤاله عن شيء أقل شيوعاً، وحينها يكتفي بالبحث على الإنترنت عما يريده المستخدم.

واعتبر جونز ذلك مؤشراً الى أن مُطوري تلك الأنظمة انشغلوا بمحاولة استباق وتقدير ما يريد الناس السؤال عنه بشأن البيسبول، وفي الوقت نفسه لم يفكروا في الأشخاص الذين يسألون مثلاً عن رقاقات معالجة الرسوميات «جي بي يو»، لأنه عادةً لا توجد كثير من الاستفسارات حول ذلك.

ويطرح ذلك سؤالاً حول الأنظمة البديلة، وبالنسبة لشركة «مايكروسوفت» فلم تكشف لغاية الآن عن مساعد افتراضي على نظامها «ويندوز فون»، وإن كانت تختبر حلول الذكاء الاصطناعي في المصاعد ومكاتب الاستقبال في مقراتها.

ويعتقد المدير الإداري في وحدة «مايكروسوفت» للأبحاث، إريك هورفيتز، أن جزءاً من الحل يتضمن السماح للحواسيب بالبحث في ما هو أبعد من الأسئلة المطروحة، وقال: «تبين أنه من المهم جداً قدرة نظام على فهم السياق العام للاتصال بصورة أوسع نطاقاً».

ولفت هورفيتز إلى بعض الإشارات المهمة في سياق الاتصال؛ من موقع المستخدم، وأي وقت من اليوم يطرح فيه السؤال، وأي يوم في الأسبوع، وأنماط سلوكه، والوضع الحالي كقيادته السيارة، أو سيره على قدميه، أو جلوسه في مكتبه، وأيضاً ما إذا كان يوجد في مكان مألوف بالنسبة له، أو العكس. واعتبر هورفيتز أن تقويم الشخص، الذي يتضمن مواعيده المهمة، يُمثل مصدراً ثرياً جداً للسياق، وكذلك بريده الإلكتروني.

ويُضاف ذلك إلى طريقة أكثر طبيعية في التفاعل، وبحسب هورفيتز، تحتاج البرمجيات الى تعلّم كيفية محاكاة الإيقاع والطريقة التي يتحدث بها البشر لبعضهم بعضاً، ولتحقيق هذه الغاية ينبغي على الحواسيب إعداد استجابتها خلال حديث الأشخاص، بدلاً من الانتظار حتى ينهون كلامهم. وشبه هورفيتز المحادثة برقصة تانغو معقدة جداً، أي رقصة بين شخصين، وقال إنها لا تشمل فقط القيام بدورة بسيطة مثلما يُرى اليوم في أنظمة المساعدة على الهواتف المحمولة، وأوضح: «إنها في الواقع عملية مُعقدة جداً وسريعة التحول، حيث يتوقف الناس ويبدأون من جديد مرة أخرى، ويردّون ويستمعون، كل ذلك يحدث في الوقت نفسه في بعض الأحيان».

ومع هذه الأفكار، لم يكشف هورفيتز عن ميعاد تقديم «مايكروسوفت» مثل هذه الإمكانات للجمهور، وإن كانت تقارير قد أشارت إلى عزم الشركة الأميركية الكشف عن مساعد شخصي باسم «كورتانا»، وهو اسم نظام الذكاء الاصطناعي في لعبة الفيديو «هالو»، خلال شهر أبريل المقبل.

وإلى جانب خطط «مايكروسوفت»، أشارت أبحاث لشركة «نوانسي»، التي تُزود المساعد الشخصي «سيري» بتقنية التعرف الى الأصوات، إلى إمكانات تحسين النظام. ويدرس باحثو الشركة حالياً الظواهر المُصاحبة للغة أو الملامح غير اللفظية للكلام، كدرجة الصوت والإيقاع، أو بمعنى آخر الطريقة التي يتحدث بها الأشخاص، وليس ما يتحدثون عنه.

وذكر المهندس في «نوانسي»، جون ويست، أن البحث في العناصر الصوتية يرمي إلى الكشف عن المشاعر التي يتضمنها الحديث، وأضاف أنها تتضمن اللغة المستخدمة، إضافة إلى الترنيم أو التجويد، وهو ما يُطلق عليه علم العروض أو الأوزان، أي النغمة التي يستخدمها الشخص في الحديث؛ فإذا كان سعيداً تمضي بطريقة لطيفة تماماً، وإذا كان حزيناً تبدو جافة ومفاجئة أكثر.

واعتبر ويست أن تأثير هذه الأبحاث يشمل مساعدة أنظمة الذكاء الاصطناعي على الوصول للاستجابة الأفضل، إلى جانب إظهار حديثهم بشكل أكثر طبيعية. وقال: «على الرغم من أني لم أرها حتى الآن تنتشر، فلدينا القدرة على جلب تردد الصوت والصوتيات غير اللفظية الأخرى إلى محرك الإنتاج».

وفي الوقت ذاته، أكد ويست حاجة هذه الأنظمة الى البرمجة بعناية فائقة لفهم المواضع الملائمة للوقفات، والتنفس، وأصوات الاستهجان أو عدم القبول، وربما السُعال.

ومع ذلك، يعتقد البروفيسور يونج، من جامعة «كامبريدج»، بالحاجة إلى تغيير جوهري؛ فبدلاً من إعلام أنظمة الذكاء الاصطناعي كيفية الاستجابة، تتحول للتعلم عن طريق التجربة والخطأ. وهو أساس نظام «بارلانس» الذي يُطوره يونج بالتعاون مع فريق من الباحثين.

وعلى سبيل المثال يُمكن أن يتبادل النظام محادثة مع أحد المستخدمين يطلب في بدايتها: أريد أن أتناول بيتزا، فيرد نظام الذكاء الاصطناعي: آسف، لا أعرف ما هي البيتزا. فيقول الشخص: حسناً، هل تعرف مكان مطعم إيطالي لطيف؟ فيجيب نظام الذكاء الاصطناعي: نعم، يوجد واحد على مسافة 20 ميلاً في الطريق على يمينك، فيشكره الشخص: شكراً لك.

وقال يونج إنه في حال ظهر رضا المستخدم في نهاية المحادثة، يُضيف النظام هذه العلاقة أو الارتباط إلى قاعدة بياناته المعرفية، ومع ذلك أوضح أنها لا تُخزن باعتبارها قاعدة لازمة، بل تُسهِم في تغيير الاحتمالات في خرائطه الإحصائية، وأضاف: «لذا، في المرة المُقبلة التي يسأل فيها شخص عن البيتزا، يعرف أنك تحصل عليها من مطعم إيطالي، ولا يعلم بذلك من خلال المستخدمين أنفسهم فقط».

ويعتقد البروفيسور يونج أن استحواذ «غوغل» على شركة «ديب مايند» البريطانية لتطوير أنظمة الذكاء الاصطناعي، مقابل نحو 500 مليون دولار أميركي، يُمكن أن يُسرّع في إطلاق الأنظمة ذاتية التعلم، ويُحسّن جودة ونطاق المعرفة المقدمة.

تويتر