دروس و شروحات

ReALM من آبل: نموذج ذكاء اصطناعي جديد لحل الإشارات المرجعية وفهم سياق الشاشة

منذ إطلاق Siri لأول مرة عام 2011، سعت Apple إلى تقديم تجربة تفاعل طبيعية بين الإنسان والجهاز. كان الهدف أن يتحدث المستخدم مع هاتفه كما يتحدث مع شخص حقيقي، لكن الواقع أثبت أن الطريق لم يكن سهلًا. فبينما تطورت تقنيات الذكاء الاصطناعي بسرعة مذهلة لدى شركات مثل Google وOpenAI، بقيت Siri لفترة طويلة محدودة في قدراتها السياقية، تعتمد على أوامر واضحة ومباشرة، وتفتقر إلى الفهم العميق لما يحدث فعليًا على شاشة الجهاز.

اليوم، ومع الكشف عن نموذج ذكاء اصطناعي جديد يحمل اسم ReALM — اختصارًا لـ Reference Resolution As Language Modeling — تدخل Apple مرحلة مختلفة تمامًا في سباق الذكاء الاصطناعي. هذا النموذج لا يهدف فقط إلى تحسين الفهم اللغوي، بل يسعى إلى حل واحدة من أعقد مشكلات التفاعل بين الإنسان والآلة: كيف يمكن للمساعد الذكي أن يفهم ما تشير إليه عندما تقول “افتح هذا” أو “اضغط على الرابط الثاني” أو “أرسل هذه الصورة”، دون أن تذكر تفاصيل دقيقة؟

هنا يأتي دور ReALM، الذي يسمح للنظام بفهم سياق الشاشة نفسها — أي العناصر الظاهرة، مواقعها، ترتيبها، والعلاقات بينها — وتحويل هذه البيئة البصرية إلى تمثيل لغوي يمكن للذكاء الاصطناعي معالجته بذكاء ودقة.

ما هو ReALM تقنيًا؟

ReALM ليس مجرد تحديث لسيري، بل هو إطار بحثي متقدم طورته Apple لحل مشكلة تُعرف في الذكاء الاصطناعي باسم “حل الإشارات المرجعية” (Reference Resolution). هذه المشكلة تتعلق بفهم الكلمات التي تشير إلى عناصر غير محددة صراحة في الكلام، مثل: هذا، ذلك، هنا، هناك، الرابط الثاني، الصورة الأولى، الزر الأزرق، وغيرها.

في الوضع التقليدي، يحتاج المساعد إلى معرفة دقيقة بالعنصر المقصود. لكن في الاستخدام الواقعي، البشر لا يتحدثون بهذه الدقة. نحن نعتمد على السياق البصري والبيئي. وعندما نقول “افتح هذا”، فإن الشخص المقابل يفهم تلقائيًا ما نشير إليه لأنه يرى ما نراه.

هذا المقال قد يهمك أيضا: اضغط لفتحه
آيفون Air : هل اقتربت نهاية الفئة المتوسطة من هواتف آبل؟

ReALM يحاول أن يمنح Siri هذه القدرة نفسها.

تقنيًا، يقوم النظام بتحليل واجهة المستخدم (UI) على الشاشة، واستخراج العناصر التفاعلية مثل الأزرار، الروابط، الصور، العناوين، القوائم، النصوص، وحتى ترتيبها المكاني. ثم يحول هذه العناصر إلى تمثيل نصي منظم، يحتفظ بالموقع النسبي لكل عنصر. وبهذا، يمكن إدخال هذا التمثيل إلى نموذج لغوي يفهم الطلب الصوتي في ضوء ما هو ظاهر على الشاشة.

الميزة الجوهرية هنا أن Apple لم تعتمد على معالجة صور تقليدية ثقيلة، بل استخدمت تمثيلًا لغويًا للشاشة، مما يجعل النموذج أخف وأكثر كفاءة، وقابلًا للتشغيل محليًا على الجهاز.

لماذا يمثل هذا تحولًا جذريًا؟

لفهم أهمية ReALM، علينا إدراك أن أغلب أنظمة الذكاء الاصطناعي الحالية تتعامل مع اللغة فقط، أو مع الصور بشكل منفصل. لكن ReALM يدمج بين الاثنين بطريقة ذكية دون الحاجة إلى نموذج بصري ضخم.

هذا يعني أن Siri لن يكون مجرد مساعد ينتظر أوامر دقيقة، بل كيانًا يفهم البيئة الرقمية أمامك. سيعرف أنك تشير إلى إشعار محدد، أو إلى صورة في معرض الصور، أو إلى خيار في قائمة إعدادات، دون أن تذكر اسمه حرفيًا.

هذا النوع من الفهم السياقي يفتح الباب أمام تفاعل طبيعي للغاية. بدل أن تقول:
“سيري، افتح الرابط الذي يحمل عنوان كذا في الفقرة الثالثة من الصفحة”

يمكنك ببساطة أن تقول:
“افتح الرابط الثاني”

وسيكون النظام قادرًا على معرفة المقصود.

التفوق على GPT-4 في مهمة محددة

أظهرت أبحاث Apple أن ReALM في نسخته الكبيرة يتفوق على GPT-4 في مهام حل الإشارات المرجعية المرتبطة بسياق الشاشة. هذه نقطة مهمة للغاية.

فبينما يُعتبر GPT-4 نموذجًا عامًا ضخمًا، فإن ReALM متخصص في بيئة محددة: واجهة المستخدم. وهذا التخصص يمنحه دقة أعلى في هذا المجال.

هذا المقال قد يهمك أيضا: اضغط لفتحه
طريقة شبك الايفون على شاشه سمارت بدون Apple TV

الذكاء الاصطناعي لا يعني دائمًا أن النموذج الأكبر هو الأفضل، بل أن النموذج الأكثر تكيفًا مع المهمة هو الأكثر كفاءة. وApple اختارت أن تبني نموذجًا يخدم بيئتها الخاصة بدل الاعتماد الكامل على حلول خارجية.

الذكاء الاصطناعي

الخصوصية أولًا

من أهم الجوانب التي تميز استراتيجية Apple في تطوير نموذج ReALM هو الاعتماد المكثف على المعالجة المحلية (On-Device Processing) بدل إرسال البيانات إلى خوادم سحابية بعيدة. هذه الفلسفة ليست جديدة على آبل، لكنها تأخذ بُعدًا أكثر أهمية مع دخول الشركة بقوة إلى عالم الذكاء الاصطناعي المتقدم. فبدل أن يتم تحليل محتوى الشاشة — بما يحمله من رسائل خاصة، صور شخصية، معلومات مالية، أو بيانات عمل — على خوادم خارجية، يتم تنفيذ الجزء الأكبر من الفهم والتحليل داخل الهاتف نفسه، باستخدام قدرات المعالج العصبي (Neural Engine) المدمج في شرائح Apple Silicon.

تشغيل ReALM على الجهاز مباشرة يعني أن تحليل العناصر الظاهرة على الشاشة، وفهم الروابط بين النصوص والأزرار والصور، وتفسير أوامر المستخدم الصوتية في ضوء هذا السياق، كلها تتم محليًا دون الحاجة إلى رفع لقطة شاشة أو بيانات تفاعلية إلى السحابة. وهذا يترجم عمليًا إلى عدة مزايا استراتيجية وتقنية في آنٍ واحد.

أولًا، سرعة الاستجابة تصبح أعلى بشكل ملحوظ. عندما يعتمد الذكاء الاصطناعي على خادم خارجي، فإن الطلب يمر بمراحل متعددة: إرسال البيانات، انتظار المعالجة، ثم استلام النتيجة. أي تأخير في الاتصال بالإنترنت — سواء بسبب ضعف الشبكة أو الضغط على الخوادم — يؤدي إلى بطء في الاستجابة. أما في المعالجة المحلية، فإن زمن الانتقال يكاد يكون معدومًا، مما يمنح المستخدم تجربة فورية وسلسة، خاصة في الأوامر السريعة مثل “افتح هذا الرابط” أو “أرسل هذه الصورة”.

هذا المقال قد يهمك أيضا: اضغط لفتحه
البحث عن الصور بالصور في الايفون

ثانيًا، تقليل الاعتماد على الإنترنت يمثل ميزة عملية حقيقية. فالكثير من المستخدمين لا يتوفر لديهم اتصال مستقر طوال الوقت، سواء أثناء السفر، أو في الأماكن ذات التغطية الضعيفة، أو عند استخدام وضع الطيران مع تشغيل الواي فاي بشكل محدود. قدرة ReALM على العمل محليًا تعني أن Siri يمكنه الاستمرار في فهم سياق الشاشة وتنفيذ الأوامر حتى في ظروف اتصال غير مثالية، مما يعزز الاعتمادية اليومية للنظام.

ثالثًا، وربما الأهم، هو حماية البيانات الحساسة. محتوى الشاشة غالبًا ما يتضمن معلومات شخصية للغاية: رسائل خاصة، تفاصيل حسابات بنكية، صور عائلية، بيانات عمل سرية، أو مراسلات مهنية. إرسال مثل هذه البيانات إلى خوادم سحابية — حتى وإن كانت مشفرة — يظل مصدر قلق لعدد كبير من المستخدمين والمؤسسات. عبر إبقاء المعالجة داخل الجهاز، تقلل Apple من كمية البيانات التي تغادر الهاتف، مما يعزز ثقة المستخدمين ويجعل النظام متماشيًا مع قوانين الخصوصية الصارمة في العديد من الدول.

رابعًا، تقليل مخاطر التسريب أو الاختراق. كلما زادت كمية البيانات المنقولة عبر الإنترنت، زادت نقاط الضعف المحتملة. ورغم أن الشركات الكبرى تستثمر مليارات الدولارات في تأمين بنيتها التحتية السحابية، فإن المخاطر لا تنعدم تمامًا. المعالجة المحلية تقلل من سطح الهجوم المحتمل، لأن البيانات الحساسة لا تنتقل إلى بيئة خارجية يمكن استهدافها.

لكن ما يمنح هذا النهج قوة إضافية هو أنه لا يقتصر على الجانب الأمني فقط، بل يعكس رؤية أعمق لدى Apple: بناء ذكاء اصطناعي متكامل مع العتاد والنظام. فالشركة تتحكم في تصميم المعالج، ووحدة المعالجة العصبية، ونظام التشغيل، وطبقات الحماية. هذا التكامل يسمح بتحسين الأداء واستهلاك الطاقة بشكل دقيق، بحيث يعمل ReALM بكفاءة دون استنزاف البطارية أو التأثير سلبًا على أداء الجهاز العام.

هذا المقال قد يهمك أيضا: اضغط لفتحه
الحفاظ على بطارية الآيفون: نصائح يومية للحفاظ على الأداء

في عصر تتزايد فيه المخاوف بشأن خصوصية البيانات، والرقابة الرقمية، واستغلال المعلومات الشخصية لأغراض إعلانية أو تحليلية، يصبح نهج المعالجة المحلية نقطة تميز حقيقية. كثير من المنافسين يعتمدون بشكل أكبر على المعالجة السحابية بسبب ضخامة نماذجهم اللغوية، بينما تسعى Apple إلى موازنة الذكاء المتقدم مع الخصوصية. هذا قد يمنحها أفضلية تنافسية طويلة المدى، خاصة بين المستخدمين الذين يضعون الأمان والسرية في مقدمة أولوياتهم.

في النهاية، لا يتعلق الأمر فقط بتقنية أسرع أو أكثر ذكاءً، بل بثقافة تصميم كاملة تضع الخصوصية في صميم الابتكار. وإذا نجحت Apple في توسيع قدرات ReALM مع الحفاظ على هذا المبدأ، فقد نشهد نموذجًا جديدًا للذكاء الاصطناعي الشخصي — ذكاء قوي، سريع، ومتصل بسياقك… لكنه يبقى داخل جهازك.

سيناريوهات استخدام واقعية

1. أثناء تصفح الإنترنت

يمكنك أن تقول: “افتح هذا الفيديو” بينما الفيديو ظاهر أمامك، دون تحديد اسمه.

2. داخل تطبيق الصور

يمكنك أن تقول: “أرسل هذه الصورة إلى أحمد”، وسيعرف النظام أي صورة تقصد.

3. أثناء قراءة بريد إلكتروني

“أضف هذا الموعد إلى التقويم” — وسيتعرف على تفاصيل الموعد مباشرة من الرسالة المعروضة.

4. في إعدادات الهاتف

“غيّر هذا الخيار” — دون الحاجة لذكر اسم الإعداد.

هذه البساطة في التفاعل ستجعل استخدام Siri أكثر طبيعية من أي وقت مضى.

الفصل السادس: التحديات التقنية

رغم الإمكانيات الكبيرة، هناك تحديات:

  • فهم واجهات التطبيقات المعقدة
  • التعامل مع العناصر المتغيرة ديناميكيًا
  • الحفاظ على الأداء مع استهلاك بطارية منخفض
  • ضمان دقة التفسير في كل السيناريوهات

Apple معروفة بتأخير إطلاق التقنيات حتى تنضج بالكامل، لذلك قد لا نرى ReALM مدمجًا في النظام بشكل كامل إلا بعد عدة تحديثات.

تأثير ReALM على مستقبل iPhone

إذا نجحت Apple في دمج ReALM بسلاسة في Siri، فقد نشهد تحولًا في طريقة استخدام الهواتف الذكية.

هذا المقال قد يهمك أيضا: اضغط لفتحه
ميزة الأمان الرقمي في آيفون: حماية أفضل لبياناتك الشخصية

قد يقل الاعتماد على اللمس المباشر.
قد يصبح التفاعل الصوتي هو الوسيلة الأساسية.
او يتطور الأمر لاحقًا ليشمل النظارات الذكية والأجهزة القابلة للارتداء.

ReALM يمكن أن يكون اللبنة الأساسية لمرحلة “الحوسبة السياقية” التي تفهم ما يحدث أمامك دون تدخل معقد منك.

المنافسة مع Google وOpenAI

Google تعمل على دمج Gemini في Android بطريقة عميقة.
OpenAI تطور نماذج متعددة الوسائط.
Microsoft تدمج Copilot في Windows.

لكن Apple تمتلك ميزة فريدة: التحكم الكامل في النظام والعتاد. هذا يسمح لها بدمج الذكاء الاصطناعي في طبقات النظام الأساسية، وليس كتطبيق منفصل.

الخاتمة

ReALM ليس مجرد تحسين بسيط، بل هو إعادة تعريف لقدرة Siri على فهم العالم الرقمي الذي تراه أنت. إنه انتقال من مساعد يعتمد على الكلمات إلى مساعد يفهم السياق الكامل.

إذا نجحت Apple في تنفيذ هذه الرؤية بدقة، فقد نشهد أقوى عودة لسيري منذ إطلاقه الأول.

وقد يكون هذا التطور هو الخطوة التي تمهد لمرحلة ما بعد الهاتف التقليدي… حيث يفهم جهازك ما تراه قبل أن تشرحه.

Apple تخطط لعصر ما بعد الايفون : نظارات ذكية وقلادة AI وAirPods بكاميرات!

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *