تشير التحديثات المتسارعة في مجال الذكاء الاصطناعي إلى تغيّر موازين القوة بين أنظمة مثل ChatGPT وGemini وGoogle، حيث يعمد الخبراء إلى الاعتماد على اختبارات معيارية تقيس التفكير المنطقي وحل المشكلات والاستدلال. تؤكد هذه الاختبارات وجود تفوق واضح لـChatGPT في ثلاث مجالات رئيسية مقارنة بـGemini. وتوضح أن الوصول إلى رُقم محددة قد يتغير خلال أيام مع إصدار تحديثات جديدة. يعتمد التحليل على النسخ المدفوعة من النظامين ويُفضل الاختبار المعياري على التجارب الشخصية.
الإجابة عن الأسئلة العلمية المعقدة
أحد أهم المعايير هو GPQA Diamond المصمم لقياس التفكير على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء. وتُصنف هذه الأسئلة بأنها محظورة على البحث المباشر، حيث تتطلب ربط مفاهيم علمية وتجنب الاستنتاجات السطحية. في هذه النتائج، سجلت ChatGPT-5.2 نسبة 92.4% متفوقة بفارق طفيف على Gemini 3 Pro الذي حقق 91.9%. وللمقارنة، يبلغ متوسط نتائج خريجي الدكتوراه نحو 65% بينما لا يتجاوز غير المتخصصين 34%.
حل مشكلات البرمجة الواقعية
في مجال البرمجة، يُعد SWE-Bench Pro من أصعب المعايير لأنه يعتمد على مشكلات حقيقية مأخوذة من منصات GitHub، وتطرح شيفرات معقدة وتقرير أعطال واقعية. أظهرت النتائج أن ChatGPT-5.2 تمكن من حل نحو 24% من هذه المشكلات، مقابل 18% لـGemini، ورغم أن هذه النسب تبدو منخفضة فإن الاختبار يظل صعبًا بما يمنع الإنسان من حل 100% من الحالات. يشير ذلك إلى تفوق بسيط لـChatGPT في هذا الاختبار، مع وجود فارق لا يحسم التنافس. تُعزى الفروق إلى تعقيد المهام الواقعية التي تفرضها المنصة على النظم الآلية، وهو مؤشر على حدود الأداء في سياقات البرمجة المعقدة.
حل الألغاز البصرية والتفكير المجرد
يتضمن اختبار ARC-AGI-2 قياس القدرة على استنتاج الأنماط المجردة من أمثلة محدودة. في هذا الاختبار، سجلت ChatGPT-5.2 Pro نتيجة 54.2% مقابل 31.1% لـGemini 3 Pro، بينما حققت نسخ Gemini الأعلى تكلفة نتائج أقرب لكنها لم تتفوق. يعكس ذلك أن مهارات الاستدلال المجرد تمثل مجالاً صعباً وتظل فيه قدرات ChatGPT أقوى من Gemini وعموم المنافسين. يظل هذا المجال من أبرز المجالات التي يظهر فيها تفوق النظام الأول، رغم التحديات التي يفرضها مثل هذا الاختبار.
تُظهر النتائج أن الاعتماد على الاختبارات المعيارية يقدّم صورة أوضح للمقارنة بين الأنظمة، وأن التحديثات الحالية تمنح ChatGPT تفوقاً ملحوظاً في التفكير العلمي وحل المشكلات. رغم أن Gemini قد يحقق أداءً قوياً في بعض الاختبارات الأخرى، فإن الفروق في مجالات التفكير المعقدة لا تزال في صالح ChatGPT وفق النتائج المتداولة. يبقى المشهد متغيراً وتتباين النتائج مع كل إصدار جديد، ما يستدعي متابعة الاختبارات المعتمدة وتحديثاتها باستمرار.








