التعلم الآلي بلا بيانات

ماذا لو كان شرطُ ذكاء الآلة الذي ظننّاه مقدّساً — أن تبتلع ملايين الأمثلة قبل أن تتعلّم — مجرّد عكّازٍ مؤقّت تتكئ عليه لأنها لم تنضج بعد؟ تأمّل الطفل الذي يُريه أبوه صورةً واحدةً لزرافةٍ في كتاب، فيعرفها بعدها في حديقة الحيوان من أوّل نظرة، بل يميّزها وهي راكضة أو نائمة أو نصف محجوبة خلف شجرة. لم يحتج إلى عشرة آلاف صورة، ولا إلى وسمٍ يدويٍّ مُضنٍ، بل إلى مثالٍ واحدٍ ربطه بشبكةٍ هائلة من المفاهيم التي يملكها سلفاً عن الحيوان والرقبة والبقع والطول. فلماذا نقبل من أذكى آلاتنا ما لا نقبله من طفلٍ في الرابعة؟ هذا السؤال، الذي بدا قبل سنواتٍ ترفاً فلسفياً، صار اليوم قلبَ أعمق تحوّلٍ في تعلّم الآلة منذ عقد: الانتقال من نهمِ البيانات إلى اقتصادها.

لفهم جسامة هذا التحوّل، يجب أن نستعيد القاعدة التي بُني عليها التعلّم العميق بأكمله. فمنذ لحظة AlexNet عام 2012، رسخت في الحقل عقيدةٌ ضمنية مفادها أنّ الذكاء دالّةٌ في حجم البيانات: كلّما أطعمت النموذج أمثلةً موسومةً أكثر، تحسّن أداؤه. وقد بلغت هذه العقيدة ذروتها في «قوانين التوسّع» التي صاغها باحثون من بينهم فريقٌ في أوبن إيه آي عام 2020، حين أثبتوا أنّ أداء النماذج اللغوية يتحسّن وفق علاقةٍ رياضيةٍ منتظمة مع زيادة الحجم والبيانات والحوسبة. غير أنّ في هذه العقيدة عيباً جوهرياً غفل عنه المبهورون بها: البيانات الموسومة ليست وفيرةً ولا رخيصة. ففي الطب مثلاً، قد يتطلّب وسمُ صورةٍ شعاعيةٍ واحدةٍ خبيراً يقضي دقائق، وفي اللغات النادرة قد لا تجد آلاف الأمثلة أصلاً، وفي كلّ مجالٍ سريع التغيّر تتقادم البيانات قبل أن يكتمل جمعها. أي أنّ النموذج النهم لا يصطدم بحدود الذكاء، بل بحدود الواقع الذي يرفض أن يُختصر في جداول موسومة.

من رحم هذا التوتّر وُلد اتجاهان متلازمان يقلبان المعادلة: التعلّم من أمثلةٍ قليلة، أو ما يُعرف بـ«التعلّم بالقليل»، والتعلّم من غير أمثلةٍ بتاتاً، أو «التعلّم من الصفر». في الأوّل تُعرض على النموذج حفنةٌ من الأمثلة — مثالان أو خمسة أو حتى مثالٌ واحد فيما يُسمّى «الضربة الواحدة» — فيعمّمها على فئةٍ جديدة لم يرها في تدريبه. وفي الثاني، وهو الأجرأ، يُطلب من النموذج أن يصنّف شيئاً لم يصادف منه ولو مثالاً واحداً، معتمداً فقط على وصفٍ لغويٍّ أو سماتٍ مشتركة. تخيّل أن تقول لنموذجٍ لم يرَ حمار الوحش قط: «إنه حصانٌ مخطّط»، فيتعرّف عليه في صورةٍ بناءً على معرفته السابقة بالحصان وبمفهوم التخطيط. هذه ليست خيالاً علمياً، بل ما رصدته أبحاثٌ مبكّرة، من بينها عملٌ لاحظ فيه فريقٌ في جامعة ستانفورد أنّ النماذج تستطيع نقل المعرفة عبر «سماتٍ» وسيطةٍ تربط المرئيّ بالموصوف.

والمفتاح الذي جعل هذا ممكناً ليس حيلةً هندسيةً صغيرة، بل تحوّلٌ في فلسفة التعلّم نفسها. ففي النموذج التقليدي كنّا «نعلّم الآلة مهمّة»، أمّا الآن فصرنا «نعلّمها كيف تتعلّم»، وهو ما يُسمّى التعلّم الفوقي أو «تعلّم التعلّم». بدل أن يحفظ النموذج خرائط ثابتة بين المدخلات والمخرجات، يتدرّب على آلاف المهام الصغيرة المتنوّعة حتى يكتسب قدرةً عامّةً على التكيّف السريع مع مهمّةٍ جديدة من أمثلةٍ نادرة، تماماً كما يكتسب الإنسان الخبير حدسَ التعميم لا حفظ التفاصيل. وقد كان لظهور النماذج اللغوية الكبرى أثرٌ مضاعِف هنا؛ إذ بيّنت ورقة «النماذج اللغوية متعلّمون بالقليل»، الصادرة عن فريق أوبن إيه آي عام 2020 حول نموذج جي بي تي-3، أنّ نموذجاً ضخماً دُرّب على نصوصٍ هائلة يستطيع أداء مهامٍ جديدة بمجرّد أن تُعطى له في سياق المحادثة بضعةُ أمثلة، بل أحياناً بمجرّد تعليمةٍ لغوية صرفة دون أيّ مثال. لقد صار «السياق» بديلاً عن «إعادة التدريب»، وهذا في ذاته انقلابٌ صامت.

شاطئ الجبيل وللتاريخ هنا طرافةٌ تستحقّ التأمّل؛ فالجذر الفكري لهذه الفكرة أقدم بكثيرٍ من ضجيج اليوم. ففي مطلع الألفية، حين كانت الآلة تعجز عن تمييز قطٍّ من كلب، كان باحثون من بينهم فريقٌ مرتبطٌ بمعهد ماساتشوستس للتقنية يطرحون سؤالاً يبدو ساذجاً: كيف يتعلّم الإنسان مفهوماً جديداً من مثالٍ واحدٍ أو مثالين، بينما تحتاج خوارزمياتنا إلى آلاف؟ ومن هذا السؤال البريء وُلد ميدان «التعلّم بمثالٍ واحد» قبل أن تتوافر له الأدوات التي تُنضجه. والدرس هنا يتكرّر كما تكرّر في تاريخ الحقل كلّه: الفكرة العميقة تسبق غالباً القدرة على تحقيقها بعقود، فتنام في أدراج البحث حتى يوقظها نضجُ الحوسبة والبيانات. أي أنّ ثورة الضربة الواحدة ليست وليدة اللحظة، بل بذرةٌ قديمة أينعت أخيراً حين توافرت لها تربة النماذج الكبرى.

شاطئ الجبيل وهنا يرى الكاتب أنّ الخطأ الشائع في فهم هذه الثورة هو وصفها بأنها «تعلّمٌ بلا بيانات». فالعنوان البرّاق يخفي حقيقةً أدقّ: هذه النماذج لا تتعلّم من العدم، بل تُعيد توظيف محيطٍ هائلٍ من المعرفة السابقة اكتسبته في مرحلة التدريب المُسبق. إنّ «الصفر» في التعلّم من الصفر يعني صفرَ أمثلةٍ للمهمّة المحدّدة، لا صفرَ معرفةٍ على الإطلاق. والفرق بين الأمرين جوهري: نحن لم نُلغِ البيانات الضخمة، بل نقلناها من واجهة كلّ مهمّةٍ إلى أساسٍ معرفيٍّ عامٍّ يُبنى مرّةً ويُستثمر مراراً. وبهذا المعنى، فإنّ نماذج الضربة الواحدة ليست خروجاً على عصر البيانات الضخمة، بل ثمرته الأنضج؛ فهي تُراكم المعرفة في القاعدة لتُحرّر القمّة من النهم.

ويمضي الكاتب إلى ما هو أبعد، فيرى أنّ القيمة الأعمق لهذا الاتجاه ليست في توفير كلفة الوسم، على أهمّيتها، بل في ما يفتحه من عدالةٍ معرفية. فالنموذج النهم يخدم، بطبيعته، من يملك البيانات الضخمة: المؤسسات الكبرى واللغات المهيمنة والمجالات الغنية بالأمثلة. أمّا حين يصير التعلّم ممكناً من أمثلةٍ قليلة، فإنّ الباب ينفتح أمام اللغات قليلة الموارد، والأمراض النادرة، والثقافات التي لم تُرقمن بعد. وهنا يتّصل الأمر اتصالاً وثيقاً بالسياق العربي؛ فاللغة العربية، رغم كونها لغة مئات الملايين، ما تزال ضعيفة التمثيل في بيانات النماذج العالمية. والتعلّم بالقليل يمنحنا فرصةً نادرة لتجاوز هذه الفجوة دون أن ننتظر عقوداً حتى نراكم بياناتٍ تضاهي ما لدى غيرنا؛ إذ يكفي أن نُحسن توجيه نماذج قويةٍ بأمثلةٍ عربيةٍ مختارةٍ بعناية، بدل أن نُغرقها بكمٍّ نعجز عن توفيره. وهذا تحديداً ما يجعل هذا الاتجاه متناغماً مع طموح رؤية السعودية 2030 في توطين الذكاء الاصطناعي؛ فمن يملك القدرة على التكيّف السريع بأقلّ البيانات يصنع التقنية ولا يكتفي باستهلاكها.

وثمّة بُعدٌ آخر يغفل عنه كثيرٌ من المتحمّسين، وهو البُعد البيئي والاقتصادي. فتدريب نموذجٍ نهمٍ على بياناتٍ ضخمة يستهلك من الطاقة والحوسبة ما يجعل كلفته فلكيةً وأثره الكربوني ثقيلاً، حتى رصدت تقاريرُ المنتدى الاقتصادي العالمي ومنظّمة التعاون الاقتصادي والتنمية تصاعد القلق من فاتورة الذكاء الاصطناعي البيئية. وإذا كان التعلّم بالقليل يعني نماذج تتكيّف من حفنة أمثلةٍ بدل ملايينها، فإنّه يَعِد ضمناً بذكاءٍ أخفّ وطأةً على الكوكب وأقلّ احتكاراً لموارد الحوسبة. وهذا يقلب منطق السباق رأساً على عقب؛ فبدل أن يكون التفوّق رهيناً بمن يملك أضخم مزارع المعالجات، قد يصير رهيناً بمن يُتقن انتزاع أقصى تعميمٍ من أقلّ مثال. وفي هذا تبشيرٌ بديمقراطيةٍ تقنيةٍ لا تُقصي صغار الفاعلين، وهو ما يخدم اقتصاداتٍ ناشئةً تطمح للحاق دون أن تملك ترف البنى التحتية العملاقة.

غير أنّ الأمانة المعرفية تقتضي ألّا نسكر بالوعود. فالتعلّم من الصفر، على بهائه، هشٌّ في مواضع كثيرة؛ إذ يميل النموذج إلى الثقة المفرطة في تصنيفاتٍ مبنيةٍ على أوصافٍ ناقصة، وقد يُعمّم تعميماً خاطئاً حين يكون المفهوم الجديد بعيداً عمّا عرفه. وتُحذّر دراساتٌ في هذا الباب، منها أعمالٌ ضمن مؤشّر ستانفورد للذكاء الاصطناعي، من أنّ الأداء المبهر في الاختبارات المضبوطة قد يتهاوى في الواقع المتقلّب. كما أنّ جودة الأمثلة القليلة المختارة تصير حاسمة إلى حدٍّ خطير؛ فمثالٌ واحدٌ متحيّز قد يقود النموذج كلّه إلى الضلال، وهو ما يجعل هذا الاتجاه أقلّ تسامحاً مع الإهمال، لا أكثر. والدرس هنا أنّ تقليل كمّ البيانات يرفع، لا يخفض، من قيمة جودتها وحكمة اختيارها.

من هذه القراءة تتبلور ركائز عمليةٌ لمن أراد البناء على هذا التحوّل. أولاها أن يُعاد تعريف الميزة التنافسية: لم تعد في امتلاك أكبر كمٍّ من البيانات، بل في امتلاك أنضج المعرفة الأساسية وأدقّ الأمثلة الموجِّهة. وثانيتها أن يُستثمر في «هندسة التوجيه» و«اختيار الأمثلة» بوصفهما مهارتين محوريّتين، فالنموذج القوي يبقى أعمى ما لم يُحسن مَن يخاطبه صياغة سؤاله. وثالثتها أن تُبنى أنظمةُ تقييمٍ صارمةٍ تكشف هشاشة الأداء قبل أن تُكلّفنا في الواقع، إذ لا قيمة لذكاءٍ يلمع في المختبر ويخذل في الميدان. ورابعتها، وهي الأهمّ عربياً، أن نُسارع إلى بناء مجموعاتٍ صغيرةٍ عالية الجودة من الأمثلة العربية في المجالات الحسّاسة، فالقليل المتقَن خيرٌ من الكثير المهمل، وهذه فرصتنا الذهبية لنقفز فوق فجوة البيانات قفزاً واثقاً لا أن نعبرها زحفاً بطيئاً يستنزف الأعوام. وخامستها أن نُربّي جيلاً من الكفاءات يُجيد الحوار مع هذه النماذج بوصفه مهارةً معرفيةً جديدة، لا يقلّ شأناً عن البرمجة في عصرٍ مضى.

ولعلّ أعمق ما يستشرفه هذا المسار أنّ علاقتنا بالآلة تتحوّل من علاقة «تلقينٍ» إلى علاقة «حوار». فنحن لم نعد نُبرمج النموذج بآلاف الأمثلة الصامتة، بل نخاطبه بلغتنا، ونعلّمه بالمثال كما نعلّم تلميذاً نجيباً، ونصحّح له بالكلمة لا بالخوارزمية. وفي هذا التحوّل ما يُعيد إلى الإنسان دوره المركزي بعد أن خشي كثيرون أن تُقصيه البيانات الضخمة؛ إذ صارت الحكمة في انتقاء المثال الصائب أثمن من القدرة على جمع المليون. والسؤال الذي يفتح الأفق ليس متى تستغني الآلة عن بياناتنا، بل متى نتعلّم نحن أن نُعلّمها كما يُعلّم الحكيمُ لا كما يُكدّس الجامع؛ فالمستقبل لمن يُتقن فنّ المثال الواحد، لا لمن يملك المخازن العامرة. فهل نحسن أن نقول للآلة الكلمة التي تختصر ألف صورة؟