حين تنظر إلى صورةٍ لطفلٍ يبكي بجوار طائرةٍ ورقيةٍ ممزّقة، فإنك لا ترى ألواناً وخطوطاً فحسب، بل تسمع في خيالك صرخته، وتقرأ في عينيه قصةً لم يكتبها أحد. أما الآلة، فظلّت طويلاً عاجزةً عن هذا التلاحم؛ تَفصِل الصورة عن الصوت، والصوت عن النص، وكأنها تعيش في عوالم متوازية لا تتقاطع. فهل يُعقل أن نسمّي ذكاءً ما يعجز عن جمع ما تجمعه حواسّ طفلٍ في لمحة؟ السؤال الأعمق ليس عن قدرة الآلة على رؤية الصورة أو سماع الصوت، بل عن قدرتها على أن تنسج منهما معنى واحداً، تماماً كما يفعل العقل البشري حين يدمج ما تلتقطه الحواسّ في تجربةٍ واحدة لا تتجزّأ.
لعقودٍ طويلة، بُنيت أنظمة الذكاء الاصطناعي على مبدأ التخصّص الضيّق؛ نموذجٌ يُتقن تصنيف الصور وحده، وآخر يفكّ شيفرة الكلام المنطوق، وثالثٌ يعالج النصوص المكتوبة، كلٌّ في جزيرته المعزولة. وكان هذا التقسيم انعكاساً لطريقة تفكيرنا نحن، إذ قسّمنا الإدراك إلى حقولٍ منفصلة يسهل دراستها، فنسينا أنّ العالم لا يصلنا مقسّماً بل متشابكاً. والمفارقة أنّ الإنسان، وهو المثال الذي تحاكيه الآلة، لم يتعلّم قطّ أن يرى من غير أن يسمع أو يلمس؛ فالطفل يربط صوت أمّه بوجهها قبل أن ينطق كلمةً واحدة، ويعرف أنّ النار تحرق حين يقترن لهبُها بألمها وصوت طقطقتها. لقد كانت الوسائط المتعدّدة هي الأصل في الإدراك الطبيعي، أمّا الفصل بينها فكان اختزالاً اصطناعياً فرضته محدودية الأدوات لا طبيعة المعرفة. وكلّما تأمّلنا تاريخ هذا الحقل أدركنا أنّ كلّ قفزةٍ كبرى فيه لم تكن إلا محاولةً لردم الهوّة التي حفرها التخصّص بين قدراتٍ كان ينبغي لها أن تتكامل منذ البداية.
ومن هذا الإدراك وُلدت فكرة الذكاء الاصطناعي متعدّد الوسائط، وهو نظامٌ واحد يستقبل أنواعاً مختلفة من المدخلات — صورةً ونصاً وصوتاً بل وفيديو أحياناً — ويعالجها في فضاءٍ تمثيليٍّ مشترك يجعل الكلمة والصورة قابلتين للمقارنة في اللغة الرياضية ذاتها. وقد كانت اللحظة الفارقة في هذا المسار عام 2021 حين قدّم باحثو شركة أوبن إيه آي نموذج «كليب» الذي تعلّم الربط بين الصور وأوصافها النصّية من مئات الملايين من الأزواج المنتشرة على الإنترنت، فبات قادراً على التعرّف على أشياء لم يُدرّب عليها صراحةً، بمجرّد أن يُوصف له بالكلمات. ولم يكن هذا مجرّد إنجازٍ تقني، بل تحوّلٌ في الفلسفة؛ إذ برهن أنّ المعنى لا يسكن في الوسيط بل في العلاقة بين الوسائط. ثم تتابعت القفزات؛ فجاءت نماذج توليد الصور من النصوص لتقلب المعادلة، إذ صارت الآلة لا تفهم وصفك للوحةٍ فحسب، بل ترسمها لك من العدم. وبحلول عام 2023 ومطلع 2024، صارت النماذج الكبرى تستقبل الصورة والنص معاً في محادثةٍ واحدة، فتقرأ لك مخطّطاً بيانياً وتشرح لك خللاً في صورةٍ هندسية وتصف لك مشهداً في فيديو.
وهنا يرى الكاتب أنّ جوهر الثورة لا يكمن في عدد الوسائط التي يبتلعها النظام، بل في فكرة «الفضاء الدلالي الموحّد» الذي يصهر هذه الوسائط في تمثيلٍ واحد. فحين تتحوّل كلمة «قطّة» وصورةُ قطّةٍ وصوتُ مواء إلى متّجهاتٍ رياضيةٍ متجاورة في الفضاء ذاته، يصبح الانتقال بينها انتقالاً سلساً لا قفزةً عبر هوّة. وهذا تحديداً ما يقرّب الآلة من نمط الإدراك البشري الذي لا يفرّق بين «رؤية» الشيء و«تسميته» و«تخيّل صوته»، لأنّها جميعاً تجلياتٌ لمفهومٍ واحد في الذهن. ولهذا، فإنّ الذكاء متعدّد الوسائط ليس مجرّد تكديسٍ لقدراتٍ منفصلة في صندوقٍ واحد، بل محاولةٌ لإعادة بناء وحدة المعنى التي مزّقها التخصّص. والآلية التي تجعل هذا ممكناً هي ما يُعرف بمعمارية «المحوّلات» التي أتاحت معالجة تسلسلاتٍ من أيّ نوعٍ من البيانات بالمنطق ذاته، فلم تعد الصورة غريبةً عن النص في عين النظام، بل صار كلاهما تسلسلاً من الرموز يمكن أن ينتبه أحدهما إلى الآخر.
غير أنّ الصورة ليست وردية بإطلاق. فالقراءة النقدية تكشف أنّ ما نسمّيه «فهماً» قد يكون في كثيرٍ من الأحيان مطابقةً إحصائيةً بارعة لا إدراكاً حقيقياً للعلاقات بين الأشياء. وقد نبّهت أبحاثٌ في جامعة ستانفورد ضمن تقريرها السنوي لمؤشر الذكاء الاصطناعي إلى أنّ هذه النماذج، رغم تفوّقها المذهل في المهامّ المحدّدة، ما زالت تتعثّر في الاستدلال المنطقي المركّب الذي يتطلّب ربط أكثر من وسيطٍ ربطاً سببياً عميقاً. ويرى الكاتب أنّ خطورة هذه المرحلة تكمن في إغراء «الوهم الإدراكي»؛ فحين تصف الآلة صورةً وصفاً دقيقاً، نميل إلى الاعتقاد بأنها «تفهم» المشهد كما نفهمه نحن، بينما هي في حقيقتها تتنبّأ بأرجح الكلمات المرتبطة بأنماط البكسلات. وهذا ليس تقليلاً من شأن الإنجاز، بل دعوةٌ إلى الدقّة في توصيفه؛ فالفرق بين «المحاكاة» و«الفهم» فرقٌ جوهريٌّ لا يجوز طمسه تحت بريق النتائج المبهرة. بل إنّ هذه النماذج قد تخطئ خطأً فادحاً حين يُقدَّم لها مشهدٌ مألوف بترتيبٍ غير مألوف، فتصف ما تتوقّعه لا ما تراه فعلاً، وهو ما يفضح أنّ إدراكها مبنيٌّ على الاحتمال لا على الفهم.
وللذكاء متعدّد الوسائط أبعادٌ تطبيقية تتجاوز المختبر إلى صميم حياتنا. ففي الطبّ، تبرز إمكانية دمج صور الأشعّة مع تقارير المرضى المكتوبة وملاحظات الأطبّاء المنطوقة في تحليلٍ واحد، بما يكشف أنماطاً قد تفلت من العين البشرية حين تنظر إلى كلّ مصدرٍ على حِدة. وقد أشارت دراساتٌ في معهد ماساتشوستس للتقنية إلى أنّ دمج الوسائط في التشخيص الطبّي قد يرفع دقّة الكشف المبكّر عن بعض الأمراض، لأنّ المرض نادراً ما يُفصح عن نفسه عبر إشارةٍ واحدة. وفي التعليم، يفتح هذا الذكاء باباً لمعلّمٍ افتراضيٍّ يرى ما يرسمه الطالب على ورقته، ويسمع سؤاله، ويقرأ ما يكتبه، فيستجيب لكلّ ذلك استجابةً متكاملة. أما في خدمة ذوي الإعاقة، فالأثر إنسانيٌّ عميق؛ إذ يستطيع النظام أن يصف لكفيفٍ ما تلتقطه كاميرته من العالم بكلماتٍ منطوقة، أو يحوّل كلام أصمَّ إلى نصٍّ مرئيٍّ آنيّ. وفي الصناعة، تستطيع أنظمةٌ كهذه أن تراقب خطّ الإنتاج بالكاميرا، وتسمع أزيز الآلات، وتقرأ مؤشّرات أجهزة القياس، فتتنبّأ بالعطل قبل وقوعه؛ إذ نادراً ما ينطق العطل بإشارةٍ واحدة، بل يُفصح عن نفسه عبر تضافر علاماتٍ يلتقطها النظام مجتمعةً فيقرأ ما بينها من ترابط.
وفي السياق العربي، يكتسب هذا التحوّل أهميةً مضاعفة. فاللغة العربية، بثرائها البصري في الخطّ وتنوّعها الصوتي في اللهجات، تشكّل تحدّياً خاصاً أمام النماذج التي دُرّبت أساساً على بياناتٍ غربية. ويرى الكاتب أنّ بناء أنظمةٍ متعدّدة الوسائط تفهم الصورة العربية — من المخطوطة إلى اللافتة في الشارع — وتربطها بالنصّ العربي والصوت العربي، ليس ترفاً تقنياً بل ضرورةٌ حضارية. ومن هنا، فإنّ ما رسمته رؤية السعودية 2030 من طموحٍ في اقتصاد المعرفة والتقنيات الناشئة يجد في هذا المجال أرضاً خصبة؛ فالمملكة التي تبني مدناً ذكية ومشاريع عملاقة تحتاج إلى أنظمةٍ تقرأ بياناتها المتنوّعة دفعةً واحدة، من صور الأقمار الاصطناعية إلى تقارير المهندسين إلى محادثات المواطنين. ومن لا يُطوّر هذه القدرة بلغته وبثقافته سيظلّ يستورد عيوناً وآذاناً تُبصر غيره ولا تُبصره. وقد بيّنت تقارير المنتدى الاقتصادي العالمي أنّ الفجوة بين الدول لن تُقاس مستقبلاً بمن يمتلك التقنية فحسب، بل بمن يطوّعها لخصوصيته الثقافية واللغوية، وهنا يتّسع الميدان أمام من يجرؤ على الريادة لا الاتّباع.
ولعلّ أخطر ما يكتنف هذا المجال هو الجانب الأخلاقي. فحين تجتمع القدرة على فهم الصورة والصوت والنص في نظامٍ واحد، تتضاعف إمكانات المراقبة والتلاعب. فالنظام القادر على تحليل وجهك ونبرة صوتك وكلماتك معاً يستطيع أن يستنتج من حالتك النفسية ما لا تبوح به طوعاً. وقد حذّرت منظّمة التعاون الاقتصادي والتنمية في مبادئها للذكاء الاصطناعي من مخاطر الأنظمة التي تتجاوز قدرةَ الإنسان على فهم منطقها أو مساءلتها. ويرى الكاتب أنّ التحدّي القادم ليس في تعليم الآلة كيف تجمع الوسائط، بل في وضع الحدود التي تمنعها من أن تتحوّل من أداةٍ تخدم الإنسان إلى عينٍ تراقبه. فالقدرة بلا ضابطٍ أخلاقيٍّ ليست نعمةً بل خطرٌ مؤجّل. ويزيد الأمر تعقيداً أنّ الأنظمة القادرة على توليد الصور والأصوات معاً صارت قادرةً أيضاً على تزييفها، حتى بات التمييز بين الحقيقي والمصطنع تحدّياً يهدّد الثقة في كلّ ما نراه ونسمعه.
أما الركائز العملية التي ينبغي البناء عليها، فأولُها الاستثمار في بناء قواعد بياناتٍ عربية متعدّدة الوسائط، تربط الصورة بالنصّ بالصوت في سياقنا نحن، لا أن نكتفي بترجمة ما بناه غيرنا. وثانيها تطوير الكفاءات البشرية القادرة على تصميم هذه الأنظمة وتقييمها نقدياً لا استهلاكها فحسب. وثالثها وضع أطرٍ تنظيميةٍ وأخلاقيةٍ تواكب القدرة التقنية لا أن تلهث خلفها. ورابعها توجيه هذه التقنية نحو حلّ مشكلاتٍ حقيقية في الصحّة والتعليم والخدمات، بدل الانبهار بالعروض البرّاقة التي لا تلامس حاجة الناس. وخامسها بناء وعيٍ مجتمعيٍّ يدرك حدود هذه الأنظمة كما يدرك قدراتها، فلا يُفرط في الثقة بما تقوله، ولا يُفرّط في الإفادة مما تقدّمه.
إنّ الذكاء الاصطناعي متعدّد الوسائط يمثّل خطوةً نحو آلةٍ تدرك العالم كما يصلنا، متشابكاً لا مقسّماً. لكنّ الخطوة ليست النهاية، بل بدايةٌ لرحلةٍ أطول. فالآلة التي تجمع الصورة والصوت والنص لم تبلغ بعدُ ما يبلغه عقل الطفل حين يربط بين دمعةٍ وطائرةٍ ممزّقة فيفهم الحزن. ويبقى السؤال الذي يطلّ علينا من وراء كلّ هذا التقدّم: هل نريد آلةً ترى كلّ شيء، أم آلةً تفهم ما يستحقّ أن يُفهم؟ فحين تكتمل للآلة حواسُّها، يصبح السؤال الأخلاقي عن حدود ما نسمح لها برؤيته أهمَّ من السؤال التقني عن قدرتها على الرؤية. والمستقبل الذي يبدأ بآلةٍ تفهم الصورة والصوت والنص معاً، لن تكتبه قوّةُ النماذج وحدها، بل حكمةُ الإنسان الذي يقرّر ماذا يريد لهذه الحواسّ أن ترى، وإلى أين يوجّهها. فهل نملك من الحكمة بقدر ما منحنا الآلة من الحواسّ؟