أجراها باحثون بجامعة «ستانفورد»

دراسة: تمييز عنصري ضد السود بخوارزميات 5 شركات

المصدر:

القاهرة - الإمارات اليوم

التاريخ: 28 مارس 2020

أظهرت دراسة جديدة، نفذها باحثون بجامعة «ستانفورد» الأميركية، أن الخوارزميات المستخدمة في نظم التعرف الآلي إلى الصوت تخطئ في فهم 19% من كلام البيض، و35% من كلام السود، وهو فارق يصل إلى الضعف تقريباً.

وأكدت الدراسة أن هذا التمييز يصل لذروته مع النساء ذوات البشرة السمراء، ويعد تمييزاً عنصرياً يجعل ذوي البشرة السمراء أكثر عرضة لإساءة الفهم من قبل العديد من التطبيقات الكثيرة المعتمدة على التعرف والتحليل الآلي للأصوات، خصوصاً في مجال كشف الجريمة.

وبحسب الدراسة، فإن هذا الأمر موجود بالخوارزميات الخمس الكبرى، التي تنتجها كلٌّ من: «آي بي إم» و«غوغل» و«أمازون» و«مايكروسوفت» و«أبل».

وتحمل الدراسة التي توصلت لهذه النتائج عنوان «الفوارق العرقية في التعرف الآلي على الكلام»، ونشرت، أخيراً، بموقع مجلة «بانس» www.pnas.org، وهي المجلة الرسمية للأكاديمية الوطنية الأميركية للعلوم، التي تعد واحدة من أكثر المجلات العلمية المتعددة التخصصات والشاملة في العالم، وتنشر أكثر من 3300 ورقة بحثية سنوياً.

وتقدم النصوص الكاملة للبحوث بشكل مفتوح لجميع الباحثين حول العالم، وحمل البحث أسماء ثمانية من الباحثين، هم: أليسون كوينك، وأندرو نام، وإميلي بحيرة، وجو نيوديل، ومين كوراتي، وكونور توبس، وجون ريكفورد، ودان جوراسكي.

«أيه إس آر»

تستخدم الخوارزميات، التي خضعت للدراسة في أنظمة التعرف الآلي إلى الكلام، المعروفة باسم «أيه إس آر»، التي تعد بدورها حجر الأساس لمجموعة متنوعة من التطبيقات التي تحول اللغة المنطوقة إلى نص، وفي مقدمتها المساعدات الرقمية الصوتية المدمجة بالأجهزة المحمولة والأجهزة المنزلية والأنظمة داخل السيارة، وتطبيقات الشرح المغلق، وتطبيقات الحوسبة دون استخدام اليدين، والترجمة الآلية لمحتوى الفيديو، والتطبيقان الأخيران مفيدان بشكل خاص للأفراد الذين يعانون ضعف السمع والحركة، كما تستخدم بمنصات الإملاء الرقمية للرعاية الصحية، وغيرها.

وعلى مدى السنوات الماضية، تحسنت جودة هذه الأنظمة بفضل التقدم في التعلم العميق، وتحليلات البيانات الضخمة المستخدمة لتدريب الأنظمة. ومع ذلك، كان هناك قلق من أن هذه الأدوات لا تعمل بشكل جيد على قدم المساواة لجميع البشر، بل بها قدر من التحيز العنصري، وهي مشكلة ظهرت، أخيراً، بالعديد من التطبيقات المتقدمة الأخرى لتعلم الآلة، مثل التعرف إلى الوجه، والمعالجة الطبيعية للغة.

عينة الدراسة

وتم في الدراسة تحليل مجموعتين حديثتين من المحادثات البشرية: الأولى: مجموعة اللغات الإقليمية الأميركية الإفريقية، وهي مجموعة من المقابلات اللغوية الاجتماعية مع العشرات من الأفراد السود، الذين يتحدثون الإنجليزية والأميركية والإفريقية العامية، بدرجات متفاوتة.

وأجريت هذه المقابلات في ثلاثة مواقع أميركية، برينسفيل، وهي منطقة ريفية، شرق ولاية كارولينا الشمالية، ومدينة روتشستر غرب نيويورك، ومنطقة كولومبيا.

ومجموعة البيانات الثانية كانت لأصوات يستخدمها سكان كاليفورنيا، وهي مستقاة من المقابلات المسجلة عبر الولاية بكلٍّ من المناطق الريفية والحضرية، وأجرى التحليل بموقعين هما منطقة سكرامنتو، مبنى الكابيتول. ومقاطعة هومبولت، وهي مجتمع ريفي أبيض في شمال الولاية.

وفي مجموعتي البيانات، تم نسخ المقابلات بواسطة خبراء بشريين، وتحتوي المقابلات الأصلية المسجلة على صوت كلٍّ من المحاور والشخص الذي تجري مقابلته، وتعتمد الدراسة على مجموعة فرعية من المقاطع الصوتية التي تحتوي حصرياً على الشخص الذي تتم مقابلته، ويبلغ طوله من 5 إلى 50 ثانية، وتمت مضاهاة ومطابقة هذه المقاطع عبر مجموعتي البيانات، بناءً على عمر وجنس المتحدث ومدة المقطع.

وبعد المطابقة، كان هناك 2141 مقطعاً من كل مجموعة بيانات، بمتوسط 17 ثانية لكل مقطع، بما يصل إلى 19.8 ساعة من الصوت. وفي مجموعة البيانات المتطابقة، كان 44% من القصاصات من المتحدثين الذكور، وكان متوسط عمر المتحدثين 45 عاماً.

النتائج

وتم تقييم أداء الأنظمة، استناداً إلى معيار معدل خطأ الكلمة، المعروف اختصاراً باسم «دبليو إي آر»، وهو معيار قياسي، يحدد التناقض بين الآلة والنسخ البشرية، وأظهرت النتائج أن متوسط الخطأ على معيار «دبليو إي آر» لمجموعات السود، كان أكبر بكثير منه في حالة مجموعات البيض.

ففي خوارزميات «مايكروسوفت»، التي حققت أفضل أداء عام، وصل معدل الخطأ لدى السود 0.27%، في حين وصل معدل الخطأ لدى البيض 0.15%، أما المقاطع الصوتية غير القابلة للفهم بالكامل فبلغت 2% لدى البيض، و20% لدى السود.

وسجلت خوارزميات «أبل» أسوأ نتيجة، وأسوأ أداء عام، حيث بلغ معدل الخطأ لدى السود 0.45%، ولدى البيض 0.23%. وكمتوسط عام للخوارزميات الخمس التي جري اختبارها، تبين أن المتوسط العام للخطأ في مجموعات السود بلغ 0.35%، والمتوسط العام للخطأ في مجموعات البيض 0.19%، ما يعني أن الخطأ في التعرف إلى كلمات السود يصل إلى نحو ضعف الخطأ في التعرف إلى كلمات البيض.

أسباب العنصرية

أرجع باحثون التفاوت العرقي في أداء هذه الخوارزميات إلى مجموعات البيانات التي تم على أساسها تدريب هذه الخوارزميات على العمل، حيث تم فيها تحليل كميات كبيرة من البيانات المأخوذة عن الأحاديث واللهجات والأصوات الخاصة بالبيض، بأكثر من مجموعات البيانات المأخوذة عن الأحاديث واللهجات والأصوات الخاصة بالسود، وبالتالي تعلمت وتدربت أكثر على التعرف إلى أصوات وكلمات البيض، بدقة أكبر منها في حالة السود.

وفي ضوء ذلك، حث باحثون الشركات الخمس المنتجة لهذه الخوارزميات على جمع بيانات أفضل عن اللغات واللهجات التي يتحدث بها السود، بما في ذلك اللهجات الإقليمية والمحلية، للقضاء على هذه الظاهرة، التي ستجعل السود، وربما غيرهم من المجموعات العرقية بغض النظر عن لغتها، يتعرضون لأخطار وأعباء ومواقف لا ذنب لهم فيها، خصوصاً في حالات استخدام التعرف إلى الكلام في الإعدادات المهنية، مثل: مقابلات العمل، والإجراءات الجنائية والقانونية، وبعض أوجه الرعاية الصحية، وغيرها.

التعرف إلى الوجه

توصل بحث أجراه علماء من معهد ماسشوستس للتقنية (إم آي تي)، إلى أن خوارزميات نظم التعرف إلى الوجه تظهر تحيزاً مشابهاً، ومنها خوارزميات «أمازون» التي لم ترتكب أي أخطاء عند التعرف إلى جنس الشخص إذا كان من الرجال ذوي البشرة البيضاء، لكنها كانت تخطئ عند التعرف إلى جنس الشخص إذا كان من الإناث، وتخطئ بدرجة أكبر إذا كان الشخص من ذوي البشرة السمراء. وأثبتت الدراسة وجود تحيزات عرقية وجنسية مماثلة في خوارزميات برامج التعرف إلى الوجه من «مايكروسوفت» و«آي بي إم»، وشركة «ميجفي» الصينية.

تويتر