شركة بوابات الخير للذكاء الاصطناعي

الطابق الأول، المبنى 7، المنطقة أ طريق المطار، البوابة الاقتصادية ص.ب 93597 الرياض 11683، المملكة العربية السعودية

0112611571

+966570709955

الذكاء الاصطناعي والمعالجة اللغوية العربية

حين تطلب من نموذجٍ لغويٍّ أن يكتب لك بيتاً على بحر الكامل، فيأتيك بكلامٍ موزونٍ ظاهراً مكسورٍ في خفاياه، تدرك أنّ الآلة قد تعلّمت أن تُقلّد العربية قبل أن تتعلّم أن تفهمها. تلك المفارقة وحدها تكفي لزعزعة الطمأنينة التي تسلّلت إلى وجداننا حين رأينا النماذج تتحدّث لغتنا بطلاقةٍ مدهشة؛ فالطلاقة شيء، والفهم شيءٌ آخر، والمسافة بينهما هي بالضبط ما يفصل اللغة بوصفها صوتاً عن اللغة بوصفها معنى. فهل تحدّثت الآلة بلغتنا أخيراً، أم أنها تعلّمت فقط أن تُحاكي أصواتها كما حاكى ببغاءٌ بارعٌ نبرة سيّده دون أن يعي مما يقول حرفاً؟

لم تكن العربية يوماً لغةً سهلةً على الحاسوب، وهذا ليس انتقاصاً منها بل اعترافٌ بثرائها. فبنيتها الاشتقاقية التي تُولّد من جذرٍ ثلاثيٍّ واحدٍ عشرات المشتقّات، وإعرابها الذي يُغيّر المعنى بحركةٍ على آخر الكلمة، وغياب التشكيل في معظم نصوصها المكتوبة، كلّها عقباتٌ جعلت معالجة العربية آلياً تُصنّف بين أعقد المهام اللغوية. لقد أحصت بعض الدراسات اللسانية الحاسوبية أنّ الكلمة العربية الواحدة قد تحتمل عشرات القراءات الصرفية حين تُجرّد من حركاتها، وهي مشكلةٌ يسمّيها الباحثون «غموض التشكيل»، ولا نظير لها بهذا الحجم في الإنجليزية. ويضاف إلى ذلك أنّ ما نسمّيه «العربية» ليس لساناً واحداً، بل طيفٌ ممتدٌّ من فصحى التراث إلى فصحى الصحافة إلى عشرات اللهجات التي تتباعد حتى يكاد المغربيّ لا يفهم الخليجيّ، فأيّ عربيةٍ نريد للآلة أن تتقنها؟

ولفهم حجم القفزة التي تحقّقت، لا بدّ من تذكّر نقطة الانطلاق. فحين انفجرت ثورة النماذج اللغوية الكبرى، كانت العربية ضحيةً صامتةً لما يسمّيه الباحثون «فجوة الموارد»؛ إذ بُنيت تلك النماذج على بحارٍ من النصوص الإنجليزية، فيما لم تتجاوز حصّة العربية في بيانات التدريب نسباً ضئيلةً لا تتناسب مع كونها لغة أكثر من أربعمئة مليون إنسان. وقد نبّه مؤشر ستانفورد للذكاء الاصطناعي في تقاريره المتعاقبة إلى أنّ تركّز البيانات والقدرة الحاسوبية في حفنةٍ من اللغات يُنتج فجوةً رقميةً تتّسع لا تضيق، وأنّ اللغات «منخفضة الموارد» تدفع ثمن غيابها أداءً أضعف وتمثيلاً مشوّهاً. أي أنّ المشكلة لم تكن في العربية بوصفها لغة، بل في غيابها بوصفها بيانات؛ فالآلة لا تتعلّم ما لا تراه، ومن لا يُطعِمها لغته يتركها تتكلّم عنه بلسان غيره.

ثم جاء التحوّل من حيث لم نتوقّع تماماً، حين أدرك العالم العربي أنّ سدّ الفجوة لن يأتي هبةً من الخارج، بل صناعةً من الداخل. فظهرت مبادراتٌ طموحةٌ حملت اللغة العربية إلى صلب البحث لا إلى هامشه. كان من أبرزها نموذج «جيس» الذي أطلقته دولة الإمارات بالتعاون بين شركةٍ متخصّصةٍ ومؤسّساتٍ بحثية، فقُدّم بوصفه أحد أكبر النماذج اللغوية العربية المفتوحة في حينه، مدرَّباً على كمٍّ ضخمٍ من النصوص العربية والإنجليزية معاً. وتوازى معه صعود عائلة نماذج «فالكون» التي طوّرها معهد الابتكار التكنولوجي في أبوظبي، فتصدّرت قوائم النماذج المفتوحة عالمياً عند إطلاقها، وأثبتت أنّ المنطقة قادرةٌ على المنافسة في الصفّ الأوّل لا على استهلاك ما يُنتجه غيرها. أمّا في المملكة العربية السعودية، فقد برز نموذج «علّام» الذي طوّرته الهيئة السعودية للبيانات والذكاء الاصطناعي بوصفه نموذجاً عربياً سياديّاً، يُجسّد توجّه رؤية السعودية 2030 نحو امتلاك التقنية لا استئجارها، وصياغة أدواتٍ تتكلّم العربية من داخل ثقافتها لا من خارجها.

شاطئ الجبيل ومع ذلك، فإنّ من يقرأ هذا المشهد قراءةً متفائلةً صرفاً يقع في خطأٍ منهجيٍّ جسيم. فالنماذج المفتوحة، على وفرتها، تظلّ رهينةً لبنيةٍ تحتيةٍ من الموارد لا تزال المنطقة تستوردها لا تصنعها؛ من المعالجات الرسومية المتخصّصة إلى منصّات التدريب الضخمة. وقد لفتت تقارير منظّمة التعاون الاقتصاديّ والتنمية إلى أنّ السيادة الرقمية الحقيقية لا تكتمل بامتلاك النموذج وحده، بل بامتلاك سلسلة القيمة كاملةً من الرقاقة إلى الخوارزمية إلى البيانات. ومن ثمّ، فإنّ إطلاق نموذجٍ عربيٍّ متقدّمٍ خطوةٌ أولى مشكورة، لكنها تبقى هشّةً ما لم تُسنَد ببنيةٍ بحثيةٍ وصناعيةٍ راسخة. ويرى الكاتب أنّ أخطر ما يتهدّد هذه المبادرات ليس ضعفها التقنيّ، بل احتمال أن تتحوّل إلى استعراضٍ سياديٍّ عابرٍ ينطفئ بريقه بمجرّد أن يخبو التمويل، تماماً كما خبت «النُّظُم الخبيرة» في ثمانينيات القرن الماضي حين تجاوز الطموح ما تحتمله الأدوات.

شاطئ الجبيل ولا يكفي أن نمتلك النموذج لنطمئنّ إلى أنّ الآلة فهمت؛ إذ تكشف الاختبارات الدقيقة فجوةً عميقةً بين القدرة على إنتاج جملةٍ عربيةٍ سليمةٍ نحوياً، والقدرة على الاستدلال داخل المنطق العربيّ نفسه. فحين تُطرح على النموذج مسألةٌ تتطلّب فهم تورية أو كنايةٍ متجذّرةٍ في الثقافة، أو حكماً فقهياً يستند إلى سياقٍ مخصوص، تتكشّف هشاشة الفهم تحت قشرة الطلاقة. وقد أشارت أبحاثٌ حديثةٌ في معالجة اللغة الطبيعية إلى أنّ النماذج تُبلي حسناً في المهام السطحية كالترجمة والتلخيص، بينما يتراجع أداؤها تراجعاً ملحوظاً في المهام التي تتطلّب استدلالاً عميقاً أو معرفةً ثقافيةً ضمنية. وهذه ليست عثرةً عابرة، بل عرَضٌ لمرضٍ أصليّ: نموذجٌ تعلّم العربية من سطحها لا من عمقها، ومن نصوصها المترجمة أكثر مما تعلّمها من نصوصها الأصيلة.

لكنّ القفزة الكميّة في عدد النماذج يجب ألّا تخدعنا عن السؤال النوعيّ الأعمق. ويرى الكاتب أنّ كثيراً من الحماسة الراهنة يخلط بين أمرين متباينين: تحسين أداء العربية في النماذج، وبناء نماذج تفكّر بالعربية. فأن تُدرّب نموذجاً عملاقاً صُمّم أصلاً على المنطق الإنجليزيّ ثم تُضيف إليه جرعةً من النصوص العربية، شيءٌ يختلف جوهرياً عن أن تبني معماريةً تستوعب خصوصية الصرف العربيّ وتعدّد لهجاته وعمقه الدلاليّ منذ نقطة الصفر. كثيرٌ مما نراه اليوم هو من النوع الأوّل: عربيةٌ مُطعّمةٌ على بنيةٍ غريبةٍ عنها، تنطق الحروف صحيحةً وتخطئ الروح أحياناً. وحين يطلب أحدهم من نموذجٍ شائعٍ شرح بيتٍ للمتنبّي، قد يأتيه التحليل أنيقاً في صياغته، مضطرباً في فهمه للمجاز والسياق التراثيّ، لأنّ النموذج رأى ملايين الجمل الإنجليزية مقابل نزرٍ يسيرٍ من شروح التراث العربيّ.

ويرى الكاتب أنّ المعيار الحقيقيّ لنجاح الآلة في لغتنا ليس بلاغتها الظاهرة، بل أمانتها الثقافية. فاللغة ليست قاموساً وقواعد فحسب، بل حمولةٌ حضاريةٌ من القيم والمرجعيات والأمثال والمواقف. والنموذج الذي يُتقن نحو العربية ثم يستورد في أحكامه الثقافية منظوراً غريباً عنها، إنما يُمارس استلاباً ناعماً أخطر من العجز اللغويّ الصريح، لأنه يأتي متنكّراً في زيّ الإتقان. وقد لاحظت أبحاثٌ في أخلاقيات الذكاء الاصطناعي بجامعاتٍ كستانفورد وأكسفورد أنّ النماذج الكبرى تحمل انحيازاتٍ ثقافيةً مستترة، تنعكس في طريقة تعاملها مع القيم والأديان والأعراف، وهي انحيازاتٌ تتضخّم حين تُطبَّق على ثقافةٍ غابت أصواتها عن بيانات التدريب. ومن هنا فإنّ بناء نموذجٍ عربيٍّ أصيلٍ ليس ترفاً تقنياً ولا نزعةً قوميةً، بل ضرورةً لحماية المعنى من أن يُعاد تشكيله بأيدٍ لم تعرف العربية إلا من خارجها.

ولا يقتصر التحدّي على الانحياز الثقافيّ، بل يمتدّ إلى ما هو أكثر إلحاحاً في الاستخدام اليوميّ: اللهجات. فالنماذج التي تتقن الفصحى قد تعجز عجزاً مذهلاً أمام جملةٍ بالعامية الخليجية أو المغربية، لأنّ اللهجات المنطوقة قليلاً ما تُكتب، فهي بطبيعتها لغاتٌ منخفضة الموارد داخل لغةٍ منخفضة الموارد أصلاً. وهنا تكمن مفارقةٌ لافتة: فالعربية التي يتحدّث بها الناس فعلاً في بيوتهم وأسواقهم هي الأضعف تمثيلاً في الآلة، بينما الفصحى التي يكتبونها ولا يتكلّمونها هي الأقوى حضوراً. ويرى الكاتب أنّ من يحلّ معضلة اللهجات سيملك مفتاح السوق الحقيقيّ، لأنّ المستخدم العاديّ لا يريد محاوراً يخاطبه بلغة الجاحظ، بل بلغته التي يفهمها جاره.

وأمام هذا المشهد المتشابك، تتّضح ركائز عمليّةٌ لا غنى عنها لمن أراد للعربية مكاناً لائقاً في عصر الآلة. أولاها بناء بيانات عربية عالية الجودة لا مجرّد ضخمة الحجم، إذ لا قيمة لكمٍّ هائلٍ من نصوصٍ مشوّهة الإملاء فقيرة المحتوى؛ فجودة الوقود تسبق وفرته. وثانيتها الاستثمار في المعالجة الصرفية والتشكيل الآليّ بوصفهما حجر الزاوية لأيّ فهمٍ عميقٍ للعربية، لا تفصيلاً ثانوياً يؤجَّل. وثالثتها إيلاء اللهجات عنايةً جادّة بجمع بياناتها المنطوقة وتوثيقها قبل أن تندثر تحت ضغط العولمة الرقمية. ورابعتها بناء معايير تقييمٍ عربيةٍ أصيلة، تقيس الفهم الثقافيّ والدقّة الدلالية لا مجرّد سلامة الصياغة، فما لا نقيسه قياساً صحيحاً لن نُحسّنه تحسيناً حقيقياً. وخامستها، وهي الأعمق، احتضان الكفاءات العربية في هذا الحقل ومنحها بيئةً بحثيةً تُنافس بيئات هارفارد ومعهد ماساتشوستس، حتى لا تظلّ العقول التي تصنع عربية الآلة تصنعها من منافٍ بعيدة. وحين يسأل سائلٌ عن جدوى هذا كلّه في زمن النماذج العملاقة المفتوحة، فالجواب أنّ من لا يملك أدوات لغته يظلّ مستأجراً لفهمٍ يصوغه غيره عنه. وقد بيّنت تقارير المنتدى الاقتصاديّ العالميّ ومنظّمة التعاون الاقتصاديّ والتنمية مراراً أنّ القدرة على إنتاج التقنية لا استهلاكها هي الفيصل بين الأمم الصاعدة والأمم التابعة في الاقتصاد الرقميّ القادم. وفي السياق العربيّ تحديداً، حيث تتقاطع لغةٌ عريقةٌ مع طموحٍ تنمويٍّ متسارعٍ تجسّده رؤية السعودية 2030 وما يوازيها من مشاريع إقليمية، يصبح امتلاك ذكاءٍ اصطناعيٍّ يفهم العربية من داخلها مسألة سيادةٍ معرفيةٍ لا رفاهية تقنية. ولعلّ أنفس ما تملكه المنطقة في هذا السباق ليس المال وحده، بل ركامٌ هائلٌ من التراث المخطوط والمطبوع لم يُرقمَن ولم يُوظَّف بعدُ في تدريب الآلة؛ فهو منجمٌ معرفيٌّ ينتظر من يستثمره، وكنزٌ لغويٌّ قادرٌ وحده على منح النماذج العربية عمقاً لا تبلغه نماذجُ نشأت على نصوصٍ معاصرةٍ سطحية.

فهل تحدّثت الآلة بلغتنا أخيراً؟ الجواب الأمين أنّها بدأت تنطق، ولمّا تتقن بعد؛ تجاوزت مرحلة الصمت إلى مرحلة المحاكاة، ولم تبلغ بعد مرحلة الفهم. والمسافة الباقية ليست تقنيةً بحتة، بل حضاريةٌ في جوهرها، تتوقّف على إرادتنا نحن في أن نُطعِم الآلة لغتنا وثقافتنا وقيمنا، لا أن نتركها تتعلّمها من خارجنا فتردّها إلينا مشوّهة. والرهان القادم ليس على من يبني أكبر نموذجٍ يتكلّم العربية، بل على من يبني نموذجاً يفهمها كما يفهمها أهلها، ويحفظ روحها كما يحفظ حروفها. فاللغة التي حملت القرآن والشعر والفلسفة عبر أربعة عشر قرناً تستحقّ آلةً تفهمها لا آلةً تُقلّدها؛ والسؤال الذي ينبغي أن يؤرّقنا ليس هل ستتكلّم الآلة العربية، بل أيّ عربيةٍ نريدها أن تتكلّم، ومن يكتب لها كلماتها الأولى؟