اعتماداً على تقنيات معالجة اللغة الطبيعية ومشاركة البيانات

مسعى لمساعدة الشركات الناشئة على إضافة نظم التعرف إلى الصوت

صورة

لا يُعد تطوير أنظمة للتعرف إلى الأوامر الصوتية، على غرار «سيري» و«غوغل ناو»، بالأمر اليسير، حتى بالنسبة للشركات الكبيرة مثل «أبل» و«غوغل». ويصبح الأمر أكثر صعوبة بالنسبة للشركات الأصغر التي لا تمتلك ما يكفي من الموارد المالية لتطوير أنظمتها الخاصة، وتدريبها باستمرار على قدر كبير جداً من التسجيلات لتحسين خوارزميات التعرف إلى أنماط متنوعة للحديث.

وحالياً يتزايد الإقبال على إضافة أدوات التعرف إلى الصوت والتحكم عبر الأوامر الصوتية لأجهزة متنوعة من الهواتف الذكية إلى الأجهزة التقنية القابلة للارتداء، والطائرات من دون طيار، فضلاً عن الأدوات المنزلية المتصلة بالإنترنت.

وتسعى شركة «ويت. أيه آي» Wit.ai الأميركية الناشئة لتوفير وسيلة تُتيح للشركات الصغيرة والمطورين المستقلين والمصنعين إضافة ميزات التعرف إلى الصوت إلى منتجاتهم، وذلك اعتماداً على تقنيات معالجة اللغة الطبيعية وبيانات تُجمع من مصادر عدة.

وتستهدف الشركة، التي تتخذ من ولاية كاليفورنيا مقراً لها، أعداداً متنامية من الأجهزة ذات الشاشات الصغيرة، وتلك التي لا تتوافر على أية شاشات، وأدوات تتبع النشاط البدني، إضافة إلى التطبيقات التي يصعب فيها الاستعانة بالشاشات اللمسية مثل المُستخدمة خلال قيادة السيارات، والأعمال المنزلية والطهي.

وتعتمد فكرة «ويت. أيه آي» في مساعدة الشركات الصغيرة على إتاحة خدمة يسيرة، وتوفيرها مجاناً للمطورين والشركات التي تُوافق على مشاركة بيانات مستخدميها مع المطورين الآخرين، وبمضي الوقت ستساعد البيانات التي يجري جمعها على تحسين دقة النظام.

ويُشبه نموذج عمل الشركة، التي نجحت في جمع ثلاثة ملايين دولار كتمويل مبدئي من شركة «أندروسون هورويتز» لرأس المال المغامر، موقع «غيت هَب» GitHub لاستضافة مشروعات تطوير البرمجيات الذي يُتيح للمطورين مشاركة وتبادل التعليمات البرمجية مجاناً، ونسخها والتعديل عليها لاستخدامها في تطبيقاتهم الخاصة.

وبالمثل، توفر «ويت. أيه آي» نظام التعرف إلى الصوت مجاناً لكل من يقبل بمشاركة بيانات التسجيلات الصوتية، مع الإشارة إلى أن التسجيلات الصوتية الفعلية المستخدمة لتدريب النظام لن يتم مشاركتها لأسباب تتعلق بالخصوصية. أما الشركات التي ترفض لسبب أو لآخر مشاركة بياناتها، فسيتعين عليها دفع رسوم مالية مقابل نظام «ويت. أيه آي».

وقال المؤسس المشارك والرئيس التنفيذي لشركة «ويت. أيه آي»، أليكس ليبرون، «سيستفيد الجميع من ذلك». وعمل ليبرون في الشركة الجديدة بعد صعوبات واجهها مع شركة «فيرتو أو زد» VirtuOz، التي أسسها وترأسها سابقاً قبل بيعها إلى شركة «نوانسي» لنظم تمييز الصوت في نهاية عام 2012.

وتخصصت «فيرتوز أو زد» في تطوير برامج للتحكم عبر الصوت شبيهة بالمساعد الشخصي لنظام «آي أو إس» «سيري»، وتعاملت مع شركات منها «إي باي» و«أيه تي آند تي»، لكن ليبرون وجد الشركة مضطرة للبدء من الصفر تقريباً مع كل عميل جديد، نظراً لعدم مشاركة الشركات لبياناتها. وتطلب العمل مع كل شركة جمع عينات صوتية لتدريب النظام، وعلى الرغم من الاشتراك في ما بينها في بعض الأوامر، إلا أنه لم يكن بمقدور الشركة استخدام عينة تخص عميل لمصلحة آخر.

ويبدأ عمل «ويت. أيه آي» بتكوين المُطور لقائمة من الكلمات والعبارات التي يرغب في أن يتعرف إليها الحاسوب، ومن ثم يجري تدريب النظام على تمييزها من خلال تزويده بنماذج مختلفة لأشخاص ينطقون بها. ويحتاج النظام إلى العديد من الأمثلة ليتمكن من التعرف إلى العبارات، نظراً لاختلاف الأشخاص في طريقة النطق.

ومثلاً يمكن للمطور تحديد أمر باللغة الإنجليزية «أيقظني صباحاً الساعة السادسة» أو «أيقظني بعد 20 دقيقة»، ويُحدد ما يريد تنفيذه عندها كضبط المنبه من خلال الصوت. ويضع نظام «ويت. أيه آي» في الحسبان الأساليب المختلفة التي تعبر عن كل أمر. وعند الاستخدام العملي، حين يرغب مستخدم في ضبط المنبه يُرسل حديثه كعبارة «أيقظني خلال 20 دقيقة» إلى مخدمات «ويت. أيه آي» لتُحيل الصوت وإعادته في صورة منظمة إلى الجهاز أو التطبيق كتعليمات لضبط المنبه في الوقت المطلوب.

ويستخدم النسخة التجريبية من نظام «ويت. أيه آي» حتى الآن أكثر من 5500 مُطور لأغراض متنوعة كتطبيقات الأجهزة المحمولة وأجهزة المنازل الآلية والتقنيات القابلة للارتداء. ومنهم الطالب في «جامعة واترلو» في مدينة أونتاريو الكندية، نيك موستويتش.

وخلال يوم لتطوير البرمجيات «هاكاثون» عُقد في جامعته الشهر الماضي، أضاف موستويتش مع فريقه التحكم الصوتي من «ويت. أيه آي» لجهازيّ «ميكرويف» ومحمصة خبز. وقال موستويتش إنه تم جمع محموعة من الأوامر المرتبطة بقائمة من وصفات الطعام، ما يُتيح لمستخدم أن يقول مثلاً «اطهِ لي بعض اللحم»، وسيضبط «الميكرويف» آلياً درجة الحرارة والوقت الملائمين.

وكحال العديد من الأنظمة المُشابهة التي تعتمد على الخدمات السحابية، يُواجه «ويت. أيه آي» عقبة بطء الاستجابة وتوقف عمله حال فقدان الاتصال بالإنترنت، إلى جانب ارتباط ذلك بمشكلات تتعلق بالخصوصية. ويأمل ليبرون في تمكين المطورين من استخدام شبكة الإنترنت لتدريب التفاعلات الصوتية ثم تنزيلها لاحقاً لاستخدامها على الهاتف الذكي مثلاً دون حاجة لاتصال بالإنترنت. ويُمكن للمطورين التحقق كل فترة من مخدمات «ويت. أيه آي» للاستفادة مما تعلمه النظام.

ويُضاف إلى ذلك مشكلة استخدام «ويت. أيه آي» مع اللغات الأخرى، وفي حين قال ليبرون إنه يعمل بدرجات متفاوتة في اللغات الإسبانية والفرنسية والألمانية والإيطالية والسويدية، فلايزال أفضل كثيراً في اللغة الإنجليزية. ويعتقد ليبرون أن إضافة المزيد من البيانات ستُسهِم في تحسين اللغات الأخرى غير الإنجليزية بمضي الوقت.

وتُضاف «ويت. أيه آي» لعدد متزايد من الشركات والمشروعات التي تسعى لمساعدة المطورين على إضافة أدوات التعرف إلى الصوت إلى تطبيقاتهم. ومن بين المشروعات مفتوحة المصدر «يوليوس»، و«سفنكس» التابع لجامعة «كارنيجي ميلون» الأميركية. ويرمي ليبرون من خلال توفير الخدمة مجاناً إلى جذب عدد كبير من الشركات وبياناتها بما يسمح بتطوير إمكانية التعرف إلى الحديث تُقارب مستوى «أبل» و«غوغل».

تويتر