خدمتها تتخلى عن النص المكتوب والشاشات وتتيح بناء نظام للتفاعل الصوتي باللغات واللهجات التي يريدها المستخدم

«مايكروسوفت» تدخل سباق تقنيات «الأوامر المسـموعة» بين المستخدم والأجهزة

لـ«مايكروسوفت» مساعدها الرقمي «كورتانا» الذي ينافس «أبل سيري» و«أمازون إيكو» ومساعد «غوغل» الرقمي. أرشيفية

نشرت «الإمارات اليوم» في يونيو 2016 تقريراً تناولت فيه جانباً من تفاصيل معركة «الصوت والأصابع» القائمة بين شركات التقنية الكبرى في الولايات المتحدة: «أبل» و«أمازون» و«آي بي إم»، والتي تحاول فيها كل منها تحقيق الريادة والسبق في تغيير طريقة التواصل بين المستخدم وأدوات التقنية ومحتواها من البيانات والمعلومات، لتنتقل من ثنائي الأصابع ولوحة المفاتيح إلى ثنائي الصوت والميكروفون، أي التخلي عن الاعتماد على النص المكتوب عبر شاشات ولوحات الضغط واللمس في التعامل مع منتجات التقنية، والاعتماد بدلاً من ذلك على الأوامر المسموعة عبر الصوت البشري والميكروفون. ويبدو أن شركة «مايكروسوفت» الأميركية قررت دخول هذه المنافسة القوية رسمياً، إذ أعلنت في الثامن من فبراير الجاري عن طرح خدمة جديدة للمعاملات القائمة على الصوت والميكروفون، تعمل عبر الحوسبة السحابية، وتتيح لمن يريد استخدامها بناء نظام للتفاعل الصوتي باللغات واللهجات التي يريدها، لخدمة أي مجال يعمل به.

متطلبات الانتقال

والانتقال من نظام ثنائي «الأصابع والمفاتيح» إلى ثنائي «الصوت والميكروفون» يعني توفير أجهزة تنصت إلى صوت صاحبها حينما يتحدث، ثم تتعلم كيفية التعرف إليه، وتفهم ما يصدر عنه من كلمات ومفردات يقولها في صورة أوامر صوتية، ثم تنفذ هذه الأوامر عبر محركات بحث أو تطبيقات توفر خدمات بعينها، وتتسم في الوقت نفسه بسهولة الاستخدام وسرعة الاستجابة، والقدرة على تشغيل خدمات متنوعة لا نهائية، ويستخدم في عملية الانتقال، العديد من التقنيات العديدة منها ذكاء الآلة، والذكاء الاصطناعي، وتقنيات التعرف إلى الصوت وتحويله إلى نصوص، وتقنيات التعرف إلى النصوص وتحويلها إلى صوت.

أدوات معرفية

ولم يكن دخول «مايكروسوفت» إلى ساحة هذه المنافشة الشرسة بالخدمة التي أعلنت عنها الثلاثاء الماضي فقط، فللشركة مساعدها الرقمي «كورتانا» الذي ينافس «أبل سيري»، و«أمازون إيكو»، ومساعد «غوغل» الرقمي، وذلك على صعيد الاستخدام الشخصي والمنزلي، لكن ساحة المعاملات الصوتية المخصصة لخدمة مجال الأعمال والمؤسسات والمرتبط بالحوسبة السحابية شيء آخر مختلف، وتعمل فيه «مايكروسوفت» من خلال حزمة متكاملة تطلق عليها «أدوات مايكروسوفت المعرفية الإدراكية».

وطبقاً للتفاصيل التي حملها البيان الخاص بإطلاق هذه الخدمة، فإن هذه الحزمة عبارة عن مجموعة أدوات معتمدة على الحوسبة السحابية، تستهدف ما توصلت إليه الشركة من نتائج وإنجازات البحوث التي قامت بها في مجال الذكاء الاصطناعي وتعلم الآلة، وهي تضم حتى الآن ثمانية من الخدمات المعرفية متاحة فعلياً في المجال العام، و17 خدمة أخرى في المرحلة التجريبية، فيما بلغ عدد المطورين والمبرمجين الذين قاموا بتجربة هذه الخدمات 424 ألف مطور ومبرمج حتى الآن.

خدمة «كريس»

تحمل الخدمة الجديدة التي أطلقت الثلاثاء الماضي اسم «كريس»، وتتيح للمطورين تفصيل وبناء نظام أو خدمة للمعاملات القائمة على الأوامر الصوتية، والتعرف إلى الأصوات، تناسب احتياجاتهم وأهدافهم، وتعمل من خلال الحوسبة السحابية وفقاً لسيناريوهات خاصة يضعونها هم، أو تطبيقات تلبي احتياجات المؤسسات والجهات التي يعملون لديها، فعلى سبيل المثال، يمكن لفريق برمجة بناء نظام للمعاملات الصوتية مخصص للاستخدام في المطارات الصاخبة ذات الضوضاء العالية، فيما يبني فريق آخر نظاماً آخر يعمل بصورة أفضل مع جماعات بعينها مثل الأطفال، أو مجموعة من البشر تتحدث لهجة بعينها، أو فريق عمل يعمل بمصنع سيارات.

تقنيات تعلم الآلة

تستند آلية التعرف الصوتي التي تقوم عليها هذه الخدمة إلى تقنيات تعلم الآلة وذكاء الآلة، ما يسمح لها بالتوصل إلى نتائج أكثر دقة، وللمطورين والمبرمجين، بحسب بيان «مايكروسوفت»، اختبار واجهات التفاعل البرمجية «إيه بي آي» الخاصة بهذه الخدمة مجاناً، وعند بناء النظام يتم الاستناد إلى نموذج تسعير متدرج، يتضمن رسوم اشتراك، جنباً إلى جنب مع الرسوم المعتمدة على عدد عينات الصوت التي يتم تغذيتها في النظام، وحجم التدريب الصوتي التكيفي المطلوب لتهيئة النظام للعمل أو السيناريو المطلوب.

وطورت «مايكروسوفت» لغة خاصة بنظم المعاملات الصوتية، أطلقت عليها «لويس» وهو اختصار لـ«لغة التفاهم الذكية»، وتعد هذه اللغة من الأجزاء الأساسية في نظم التفاعل بالصوت البشري، فهي تترجم الحديث البشري إلى نص قابل للقراءة من قبل الآلة، ثم تعالج بعد ذلك هذا النص وتترجمه إلى أوامر صوتية.

خدمتان مكملتان

واختارت «مايكروسوفت» مكبرات الصوت المستخدمة في نظم الواقع الافتراضي لسماعات «أوكيوليوس ريفت» و«جير»، لتشغيل نظم المعاملات الصوتية التي يتم بناؤها في هذه الخدمة، وتستعد الشركة لإطلاق خدمتين أخريين مكملتين لهذه الخدمة مارس المقبل: الأولى هي خدمة «مشرف المحتوى» التي صممت كي تمنع تلقائياً وآلياً المحتوى غير المرغوب فيه من النصوص والفيديوهات والصور، وفي الوقت نفسه تسمح للمراجعة البشرية للحالات المشكوك فيها، فمثلاً يمكنها اكتشاف الشتائم في أكثر من 100 لغة، وتسمح للمستخدمين بتضمين قوائم خاصة بالنصوص غير المرغوب فيها داخل نظم المعاملات الصوتية التي يبنونها.

أما الخدمة الثانية فتعمل مع محرك بحث «بينج»، وتحول الصوت إلى نص، والنص إلى صوت، وهي تدعم التعرف إلى الصوت في 18 لغة ولهجاتها من 28 دولة، بينها ألمانيا، وفرنسا، والصين، وإسبانيا، واللغة العربية، كما تدعم تحويل النص الى صوت يعمل مع 10 لغات ولهجاتها من 18 دولة.

تقاتل «مايكروسوفت» مع عدد من شركات الحوسبة الأخرى في هذا المجال، من بينها «غوغل» و«أمازون» و«آي بي إم»، إذ يوجد لدى كل منها مجموعة أدواته المعتمدة على ذكاء الآلة، لكن مدير الخدمات المعرفية الإدراكية في «مايكروسوفت»، الكسندر ميجيا، يقول إن خدمات «مايكروسوفت» المعرفية هي الأفضل على الإطلاق من منظور دعم فرق العمل داخل المؤسسات والشركات، فهذه الخدمات توفر ما يحتاجه الفريق ليس فقط من القواميس المتخصصة، بل في زمن الاستجابة السريعة، والقدرة على رؤية وتقييم النتائج التي ينتجها نظام التعرف الصوتي.

تويتر