الذكاء الاصطناعي التوليدي والإبداع

حين تطلب من آلةٍ صورةً لم تُلتقط قطّ، فهي لا تبحث في خزانةٍ عن لقطةٍ تشبهها، بل تبدأ من حقلٍ من التشويش العشوائيّ الخالص، من ضجيجٍ بصريٍّ لا معنى فيه، ثم تنحت منه الوجه والظلّ والضوء نحتاً حتى يستوي مشهداً متماسكاً. فمن أين، إذن، يأتي هذا الشيء الذي لم يكن؟ وكيف يُولد المعنى من اللامعنى، والصورة من العدم؟ هذا هو السؤال الذي يستحقّ أن نقف عنده طويلاً، لا السؤال المستهلك عمّا إذا كانت الآلة تبدع أم تنسخ؛ فالأهمّ من الحكم على النتيجة أن نفهم آليّة الصنع نفسها، إذ في تلك الآليّة بالذات تكمن قدرات هذه الأنظمة الحقيقية، وفيها بعينها تكمن حدودها التي لا تُتجاوز.

ولنبدأ من حيث ينبغي أن نبدأ: من فكرة «التوليد من العدم» التي صار يُساء فهمها كثيراً. فالنماذج التوليدية لا تخلق من فراغ، لكنها لا تستدعي مخزوناً جاهزاً أيضاً؛ إنها تقع في منزلةٍ ثالثةٍ أكثر دقّة. ففي توليد الصور، تعمل ما تُعرف بنماذج «الانتشار» على مبدأٍ بديعٍ في قلبه مفارقة: تُدرَّب الآلة أوّلاً على أن تُفسد الصور، أي أن تضيف إليها التشويش تدريجيّاً حتى تتحوّل إلى ضجيجٍ محض، ثم تتعلّم عكس هذه العملية، أي أن تنزع التشويش خطوةً خطوة حتى تستعيد بنيةً ذات معنى.

فحين نطلب منها لاحقاً صورةً جديدة، تنطلق من ضجيجٍ عشوائيٍّ صرف وتطبّق عليه ما تعلّمته من «إزالة التشويش» موجَّهةً بالوصف النصّيّ، فتتكشّف الصورة كما يتكشّف تمثالٌ من كتلة رخام. أمّا في توليد النصّ، فالآليّة مختلفة جذريّاً وإن تشابه الأثر؛ إذ تتنبّأ النماذج اللغوية بالكلمة التالية احتمالاً بعد احتمال، معتمدةً على معمارية «المحوّلات» التي قدّمها باحثو غوغل عام ألفين وسبعة عشر في ورقتهم التي حمل عنوانها فكرةً مفادها أنّ الانتباه هو كلّ ما تحتاجه، فمنحت الآلة قدرةً على وزن العلاقات بين الكلمات المتباعدة. والفارق بين الآليّتين جوهريّ ويفسّر كثيراً من سلوكهما: فمولّد الصور ينحت كلّ الصورة دفعةً واحدةً وينقّحها تكراراً، بينما مولّد النصّ يمضي خطّيّاً كلمةً تلو كلمة لا يملك أن يعود ليصحّح ما مضى.

وفي هذا الفارق التقنيّ الدقيق يكمن سرّ أنّ الصور قد تبلغ كمالاً بصريّاً مذهلاً بينما تتعثّر النصوص الطويلة في تناقضاتها الداخلية. ولهذا أيضاً يستطيع مولّد الصورة أن يراجع نتاجه عشرات المرّات قبل أن يستقرّ على صورةٍ نهائية، بينما يلتزم مولّد النصّ بكلّ كلمةٍ قالها فور أن يقولها، فيبني على خطئه بدل أن يتراجع عنه، وهذا وحده يفسّر كثيراً من زلّاتٍ تبدو للوهلة الأولى غريبةً على آلةٍ بهذه القدرة.

ولأنّ الفهم لا يكتمل بالتجريد وحده، فلننظر في كلّ وسيطٍ على حدة وفق قدرته الحقيقية. ففي الصورة، بلغت الأنظمة مبلغاً يكاد يخدع العين الخبيرة، حتى صار من العسير على كثيرٍ من الناس أن يميّزوا الوجه المولّد من الوجه الحقيقيّ؛ وقد أشار باحثون في جامعة ستانفورد ضمن مؤشّرهم السنويّ للذكاء الاصطناعي إلى القفزة الهائلة في واقعيّة المخرجات البصرية خلال سنواتٍ قليلة. وهي قفزةٌ صار معها التمييز بصريّاً وحده غير كافٍ، حتى دعت مؤسّساتٌ بحثيّةٌ كبرى إلى تطوير أدوات كشفٍ وتوسيمٍ تُلحق بالمحتوى المولّد لتمييزه من الأصيل، إدراكاً بأنّ العين البشرية لم تعد حَكَماً يُعتمد عليه وحده. ومع ذلك، تظلّ لهذه القدرة حدودٌ بنيويّةٌ طريفةٌ وكاشفة: فالنموذج الذي يرسم وجهاً آسراً قد يعجز عن رسم يدٍ بأصابعها الخمس على نحوٍ سليم، لأنه تعلّم توزيع البكسلات لا تشريح الجسد؛ إنه يعرف كيف «تبدو» اليد في آلاف الصور، ولا يعرف أنّ لها خمس أصابع بالضرورة. وهنا يرى الكاتب أنّ أخطاء هذه الأنظمة ليست عيوباً عرضيّةً تُصلَح بمزيدٍ من البيانات، بل هي نوافذ تكشف عن طبيعتها الحقيقية: أنها تتقن المظهر الإحصائيّ وتجهل البنية السببيّة، وأنّ كلّ ما تنتجه إنما هو ترجيحٌ للمألوف لا فهمٌ لما تحته.

شاطئ الجبيل أمّا النصّ، فقدرته أعمق وأخطر في آنٍ معاً. فالنماذج اللغوية تكتب مقالاً متماسكاً وتترجم بين اللغات وتلخّص وتبرمج، لكنها تظلّ أسيرةَ علّةٍ بنيويّةٍ سمّاها الباحثون «الهلوسة»: أن تختلق النماذج وقائع ومراجع لا وجود لها، بثقةٍ لغويّةٍ لا تتزعزع. والمسألة هنا ليست عَرَضاً يُداوى، بل نتيجةٌ حتميّةٌ لطبيعة الآلة؛ فهي مدرَّبةٌ على إنتاج النصّ الأرجح إحصائيّاً، لا النصّ الأصدق واقعيّاً، والصدق والرجحان لا يتطابقان دائماً. وقد عبّر عالم اللسانيات نعوم تشومسكي عن لبّ هذا القصور حين رأى أنّ هذه النماذج تجيد الوصف ولا تجيد التفسير، وتراكم الأنماط ولا تدرك المبادئ؛ فهي تعرف ماذا يقول الناس عادةً، ولا تعرف لماذا يقولونه. ويضيف الكاتب إلى ذلك ملاحظةً يراها مفصليّة: أنّ طلاقة هذه الأنظمة هي بالضبط مكمن خطرها، لأنها تكسو الخطأ ثوب اليقين، فيطمئنّ القارئ إلى عبارةٍ مصقولةٍ لا لأنها صحيحةٌ بل لأنها فصيحة؛ والفصاحة، حين تنفصل عن الصدق، تصير أداة تضليلٍ لا أداة معرفة.

شاطئ الجبيل وأمّا الفيديو، فهو الميدان الذي تنكشف فيه الحدود أوضح انكشاف. فقد بهرت أنظمةٌ حديثةٌ كنظام «سورا» من شركة أوبن إيه آي العالمَ بمقاطع تبدو سينمائيّةً للوهلة الأولى، لكنّ التدقيق يفضح هشاشةً عميقة: فالكأس تسقط ولا تنكسر، والظلّ يتحرّك في اتّجاهٍ يخالف مصدر الضوء، والوجه يتبدّل تبدّلاً خفيّاً بين لقطةٍ وأخرى. والسبب أنّ توليد الفيديو يفرض تحدّياً مضاعفاً: لا أن تكون كلّ لقطةٍ مقنعةً وحدها فحسب، بل أن يكون تتابعها متّسقاً عبر الزمن وخاضعاً لقوانين الفيزياء. والنموذج لم يتعلّم الفيزياء قطّ؛ تعلّم كيف «تبدو» مقاطع الفيديو، لا كيف يعمل العالم. ومن هنا يرى الكاتب أنّ الفيديو هو الفيصل الأصدق في الحكم على هذه الأنظمة، لأنه يكشف الفجوة الهائلة بين «محاكاة المظهر» و«نمذجة الواقع»؛ فالآلة تحاكي شكل العالم ولا تملك نموذجاً عمّا يجري فيه، وهذا الفرق هو الهوّة التي تفصل التقليد البارع عن الفهم الحقيقيّ.

وإذا جمعنا هذه الملاحظات الثلاث في رؤيةٍ واحدة، تبيّن أنّ ما يجمع الوسائط الثلاثة هو قانونٌ عميق: أنّ هذه الأنظمة بارعةٌ في الاستيفاء بين ما رأته، عاجزةٌ عن الاستقراء خارجه. فهي تملأ الفراغات بين النقاط المعلومة ملئاً مدهشاً، لكنها لا تقفز إلى نقطةٍ لم تُرسم في فضائها أصلاً. وقد فرّقت الباحثة مارغريت بودن، إحدى أبرز من نظّر في الإبداع الحاسوبي، بين إبداعٍ يعيد ترتيب عناصر فضاءٍ قائم، وإبداعٍ يكسر حدود الفضاء ويبتكر قواعد جديدة؛ والذكاء التوليدي، في تقدير الكاتب، يبلغ ذروة الأوّل ويعجز عجزاً تامّاً عن الثاني. ولهذا فإنّ الحديث عن «توليدٍ من العدم» مجازٌ مضلّل؛ فلا توليد من العدم، بل إعادة تركيبٍ لما في البيانات وفق احتمالاتٍ رياضيّة، وإن جاءت في صورةٍ لم تُرَ من قبل. والجِدّة، كما ينبغي أن نكرّر دائماً، ليست مرادفاً للإبداع.

على أنّ هذا التحليل لا ينبغي أن ينزلق إلى التقليل المتعجّل. فقيمة هذه الأدوات لا تُقاس باستقلالها عن الإنسان، بل بمقدار ما تضخّم قدرته. وقد رصدت دراسةٌ ميدانيّةٌ واسعةٌ أجرتها كلّية هارفارد لإدارة الأعمال على مستشارين مهنيّين أنّ الاستعانة بهذه الأنظمة رفعت جودة العمل وسرعته رفعاً ملحوظاً، وأنّ المتأخّرين كانوا الأكثر استفادة، لكنّ الباحثين حذّروا في الوقت ذاته من «حدّ الكفاءة المسنّن»، أي أنّ الأداة تبرع في مهامّ وتتعثّر في أخرى تبدو متشابهة، فيقع غير الواعي في فخّ الثقة الزائدة. ويرى الكاتب أنّ هذا التحذير هو المفتاح العمليّ كلّه: فمن عرف أين تنحت الآلة ببراعةٍ وأين تتعثّر بصمت، ملك زمام الأداة؛ ومن جهل ذلك، أسلمها قياده فأوقعته في أخطاءٍ يكسوها بريق الإتقان.

وإذا أردنا أن نحوّل هذا الفهم إلى ركائز عمليّة، فإنّه يستقرّ على ثلاث. الأولى أن نعرف طبيعة كلّ وسيطٍ وحدوده قبل أن نستعمله؛ فنثق بالصورة المولّدة في التصوّر والإلهام لا في توثيق واقعةٍ حدثت، ونثق بالنصّ في الصياغة والترتيب لا في إثبات الحقائق دون تحقّق، ونتعامل مع الفيديو المولّد بوصفه محاكاةً للمظهر لا شهادةً على الواقع. والركيزة الثانية أن نجعل التحقّق عادةً لا استثناءً؛ فكلّ رقمٍ تذكره الآلة، وكلّ مرجعٍ تسوقه، وكلّ مشهدٍ تعرضه، يحتمل أن يكون نحتاً بارعاً من التشويش لا انعكاساً للواقع. والركيزة الثالثة أن نصون الحكم الإنسانيّ في موضع القرار؛ فالآلة تقترح وتولّد، أمّا التمييز بين الغثّ والسمين، وبين الصادق والمختلق، فيظلّ من اختصاص العقل الذي يفهم لماذا، لا الآلة التي تعرف ماذا. فموضع الإنسان لم يَزُل، بل انتقل من موقع المنفّذ إلى موقع الحاكم الذي يضع الأداة في نصابها ويردّها إلى حدّها حين تتجاوزه.

وحين ننقل هذا كلّه إلى سياقنا العربيّ، تتضاعف أهمّيته. فاللغة العربية، بثرائها الصرفيّ وعمقها البلاغيّ، ما تزال أقلّ تمثيلاً في بيانات هذه النماذج من اللغات الكبرى، مما يجعل مخرجاتها العربية أكثر عرضةً للهلوسة وأضعف رصانة؛ والنموذج الذي لم يُغذَّ بثقافتنا سيعيد علينا صورةً مستوردةً عن أنفسنا. ورؤية المملكة ألفين وثلاثين، إذ جعلت من الاقتصاد الرقمي والمحتوى المحلّيّ ركيزةً للتحوّل، تضع على عاتقنا أن نوطّن هذه الأنظمة لا أن نستهلكها فحسب، وأن نملأها بمحتوًى عربيٍّ أصيلٍ يصير وقوداً لنماذج تنطق بلساننا وترى بعيننا. ويرى الكاتب أنّ من يتأخّر عن إطعام الآلة لغته وتراثه، يسلّمها مرآةً تعكس غيره ولا تعكسه.

ويبقى أنّ فهم آليّة الصنع لا يقلّل من عجبنا، بل يصقله ويحوّله من انبهارٍ ساذجٍ إلى وعيٍ ناقد. فالآلة التي تنحت الصورة من الضجيج، وتنسج النصّ من الاحتمال، وتركّب الفيديو من المظهر، تظلّ مبهرةً في قدرتها على ملء ما بين المعلوم، عاجزةً عن تجاوزه إلى المجهول. ولعلّ أعظم ما تكشفه لنا هذه الأنظمة ليس حدودها هي، بل حدودنا نحن في فهم ما يجعل الإبداع إبداعاً؛ فحين رأينا الآلة تتقن المظهر وتعجز عن المعنى، أدركنا أنّ ما يبقى للإنسان ليس المهارة التنفيذية التي صارت في متناول كلّ يد، بل القصد الذي يولد المعنى، والحكم الذي يميّز الصدق، والقفزة التي تبتكر فضاءً لم يكن. فالسؤال الذي ينبغي أن نحمله ونحن نقف أمام هذه الأنظمة ليس «هل تبدع من العدم؟»، بل «ماذا نبدع نحن حين تتولّى هي ما دون العدم بقليل؟». وفي تلك المسافة الدقيقة بين ما تستطيعه الآلة وما يستعصي عليها، يقيم مستقبل الإبداع الإنسانيّ كلّه.