أعلنت شركة DeepSeek في أكتوبر الماضي عن تقنية DeepSeek-OCR، وهي طريقة تعتمد على تمثيل النص بصريًا كوسيط لضغطه. وتُعلن الشركة أن هذا الأسلوب يمكنه تقليل عدد الرموز النصية (Tokens) بنحو 7 إلى 20 مرة مقارنة بالنصوص التقليدية. وتوضح أن الهدف هو تمكين نماذج الذكاء الاصطناعي من معالجة المستندات الطويلة والمعقدة بشكل أكثر كفاءة من خلال تقليل الحمولة النصية. وتؤكد الشركة أن ذلك يمثل خطوة في طريقة تعامل أنظمة الذكاء الاصطناعي مع النصوص الكبيرة، خاصة في سياقات تحتاج فهماً معمقاً للمخطوطات المطبوعة.
أشارت دراسة مستقلة أُعدت من باحثين في جامعة توهوكو اليابانية والأكاديمية الصينية للعلوم إلى أن الأداء ليس ثابتًا بل يعتمد بشكل كبير على أنماط نصوص سابقة. وخلصت الدراسة المعنونة قيمة بصرية أم عكاز لغوي؟ نظرة متعمقة على DeepSeek-OCR إلى أن النتائج ليست متسقة وأن الاعتماد على الأسبقيات اللغوية يغلب على الاستدلال مقابل الفهم البصري. كما أشارت المؤشرات إلى أن دقة الإجابة عن الأسئلة البصرية انخفضت إلى نحو 20% عند إضافة نص يمكن أن يؤثر في الاستدلال، مقارنةً بنسبة تفوق 90% لدى نماذج تقليدية. وتثير النتائج تساؤلات حول جدوى الاعتماد على الضغط البصري كحل عام لتجاوز قيود السياق الطويل.
مواقف علمية متباينة
يرى بعض خبراء علوم الحاسوب أن التقنية ليست فاشلة بل سلاحًا ذو حدين. قد تكون مفيدة في معالجة مخطوطات غير واضحة لكنها قد تشكل نقطة ضعف عند قراءة نص مطبوع بوضوح. وأشار هؤلاء إلى أن الاعتماد على المعرفة المكتسبة قد يقلل من دقة الاستقراء في بعض النصوص. ويوصي الخبراء بأن تقويم الأداء يتطلب اختبارات دقيقة وبيئات تطبيقية متنوعة.
آفاق قراءة النصوص الطويلة
تشير النتائج إلى أن السباق لتحسين قدرة النماذج على فهم النصوص الطويلة لا يزال بلا حل سحري يناسب كل الحالات. ويؤكد الباحثون أن العمل مستمر للعثور على استراتيجيات بديلة أكثر موثوقية لتجاوز تحديات السياق الطويل والحوار المتواصل. وتشدد الدراسات على ضرورة دمج معالجة بصرية مع معرفة لغوية بشكل متكامل لتحقيق نتائج أكثر ثباتًا. ويظل الهدف النهائي تطوير تقنيات قراءة مستندات طويلة تتسم بالدقة والاعتمادية عبر سيناريوهات تطبيقية متنوعة.








