- تعمل خاصية "سلسلة الأفكار" على تحسين التفكير المنطقي في نموذج التعلم القائم على التعلم من خلال جعل الخطوات الوسيطة واضحة بدلاً من فرض إجابات فورية.
- تفاضل المتغيرات مثل الصفرية، والقليلة، و Auto-CoT، والاتساق الذاتي، وشجرة الأفكار بين الدقة والتكلفة وجهد التنفيذ.
- تُعد تقنية CoT قوية بشكل خاص في الأنظمة التي تستخدم الأدوات والوكلاء، حيث يعزز التفكير الشفاف الموثوقية وقابلية تصحيح الأخطاء.
- يتطلب استخدام CoT في الإنتاج إمكانية المراقبة والتقييم والتحسين الفوري المتكرر لتحقيق التوازن بين الجودة وزمن الاستجابة وتكلفة الرمز المميز.

لقد تحولت تقنية "سلسلة الأفكار" (CoT) من كونها مجرد فضول بحثي إلى واحدة من أكثر الأدوات العملية التي يمتلكها المطورون لجعل نماذج اللغة الكبيرة تفكر بشكل حقيقي، بدلاً من مجرد تخمين الكلمة التالية الأكثر احتمالاً. من خلال مطالبة النموذج صراحةً بتوضيح خطواته الوسيطة، يمكنك تحقيق أداء أفضل بكثير في مهام الرياضيات والمنطق واتخاذ القرارات، مع الحصول أيضًا على مسار شفاف يمكنك تصحيحه ومراجعته.
إذا كنت تقوم ببناء تطبيقات مدعومة بتقنية LLM، عملاء أو مساعدي الطيارين، وما زلتم تكتفون بإرسال تعليمات خطوة واحدة فقط، فإنكم تتركون الكثير من الجودة على الطاولة. في هذا الدليل الموجه للمطورين، سنشرح بالتفصيل ما هو "سلسلة الأفكار"، ولماذا تعمل، والمتغيرات الرئيسية (بدون مثال، عدد قليل من الأمثلة، Auto-CoT، الاتساق الذاتي، شجرة الأفكار، من الأقل إلى الأكثر، متعدد الوسائط)، وكيف تتم مقارنتها بتسلسل المطالبات، وكيفية دمجها ومراقبتها في الأنظمة الحقيقية باستخدام الأدوات الحديثة.
من الإجابة المباشرة إلى الاستدلال الصريح
معظم الأسئلة التي يرسلها الناس إلى برنامج ماجستير القانون هي أسئلة "مفردة": أنت تطرح سؤالاً، فيجيبك النموذج بإجابة، دون طرح أي أسئلة أو إظهار أي منطق. بالنسبة لسؤال مثل "ما لون السماء؟"، فهذا جيد: فالنموذج ببساطة يُرجع "السماء زرقاء". لا يوجد هيكل مرئي، ولا منطق وسيط، فقط جملة نهائية تبدو صحيحة.
يقوم نظام "سلسلة الأفكار" بعكس هذا النمط من خلال إخبار النموذج بسرد خطوات التفكير التي يتبعها فعلياً. اسأل "لماذا تبدو السماء زرقاء؟ فكر خطوة بخطوة." وقد يقوم النموذج بشرح مفهوم "الأزرق"، والتحدث عن كيفية تفاعل ضوء الشمس مع الغلاف الجوي، وذكر تشتت رايلي، ثم يذكر فقط أن الأطوال الموجية الزرقاء الأقصر تتشتت في جميع الاتجاهات، لذلك تبدو السماء زرقاء بالنسبة لنا.
من الناحية الفنية، أنت لا تقوم بتغيير أوزان النموذج أو تزويده بمعرفة جديدة؛ أنت تقوم بتغيير تنسيق الحساب الذي تطلب منه القيام به. بدلاً من ضغط التحليل والاستدلال والحساب والإجابة في تمريرة واحدة للأمام، فإنك تسمح لها ببث سلسلة من الأفكار الوسيطة التي تتطور نحو استنتاج.
من الناحية العملية، يمكن أن يكون هذا بسيطًا مثل إضافة تعليمات مثل "أظهر منطقك خطوة بخطوة" أو "دعونا نحل هذا بشكل منهجي" إلى نهاية مطالبتك. تشجع هذه الإضافة الصغيرة النموذج على الكشف عن سلسلة الحالات الوسيطة التي تؤدي إلى النتيجة النهائية، بدلاً من القفز مباشرة إلى إجابة تبدو معقولة فحسب.
كما أن تقنية CoT تجعل المراقبة أسهل بشكل كبير. عندما يكون النموذج خاطئًا، يمكنك غالبًا تحديد الخطوة الدقيقة التي انحرف فيها منطق النموذج عن مساره، بدلاً من التحديق في رقم خاطئ غامض أو قرار غير صحيح بدون أي تفسير.
الفجوة بين مطابقة الأنماط والاستدلال الحقيقي
تتميز نماذج التعلم الموجه (LLMs) بقدرة فائقة على مطابقة الأنماط لأنها في الأساس آلات احتمالية عملاقة مدربة على كميات هائلة من النصوص. اسأل، "ما هو الأثقل، رطل من الريش أم رطل من الرصاص؟" وقد رأى النموذج الحديث نمط السؤال الخادع هذا مئات أو آلاف المرات؛ فيجيب بثقة أنهما متساويان في الوزن.
لكن عندما تطرح سؤالاً يتطلب عدة عمليات مترابطة، يمكن أن يتدهور الأداء بسرعة. مثال كلاسيكي: "إذا استغرقت 5 آلات 5 دقائق لصنع 5 قطع، فكم من الوقت ستستغرقه 100 آلة لصنع 100 قطعة؟" ستوهم العديد من النماذج بالإجابة البديهية ولكنها خاطئة ما لم يتم توجيهها بعناية.
المشكلة الأساسية عادة لا تكمن في نقص المعرفة، بل في نقص البنية. يتطلب الاستدلال متعدد الخطوات ضمنيًا من النموذج تنفيذ عمليات متعددة بالتتابع: فهم النص، وتحديد المطلوب، وربطه بالعلاقات أو الصيغ ذات الصلة، وإجراء العمليات الحسابية، وتكوين الإجابة. إذا طلبت استجابة فورية، فأنت تطلب منه فعليًا ضغط هذه العملية برمتها في خطوة واحدة.
يمنح التوجيه القائم على سلسلة الأفكار النموذج "مساحة للتفكير" من خلال تحويل هذا التسلسل الضمني إلى نص صريح. أظهرت الأبحاث التي أجرتها جوجل وغيرها أنه عندما تطلب من النماذج "إظهار عملها"، فإن الدقة في مهام الحساب والاستدلال المنطقي والتلاعب الرمزي تقفز بشكل كبير مقارنة بالإجابة المباشرة.
إحدى التجارب اللافتة للنظر بشكل خاص: عندما طرح الباحثون على GPT-3 أسئلة رياضيات خاصة بالمرحلة الابتدائية، أجاب بشكل صحيح على أقل من 20% منها باستخدام عبارات بسيطة. عندما قاموا ببساطة بتغيير السؤال ليطلبوا تفكيراً وسيطاً، ارتفعت الدقة إلى ما يزيد عن 50%، وإضافة الاتساق الذاتي رفعها إلى منتصف السبعينيات. نفس الأوزان، نفس النموذج - مجرد طريقة أكثر ذكاءً لطرح السؤال.
الأنواع الأساسية لتحفيز سلسلة الأفكار
قام المطورون بتطوير عدد قليل من أنواع CoT لتحقيق التوازن بين الدقة والتكلفة وتعقيد التنفيذ. سترى متغيرات مثل شجرة الأفكار بدون لقطات، وشجرة الأفكار ذات اللقطات القليلة، وشجرة الأفكار التلقائية (Auto-CoT)، والاتساق الذاتي، وشجرة الأفكار، والتوجيه من الأقل إلى الأكثر، وكل منها مناسب لسيناريوهات مختلفة قليلاً.
سلسلة الأفكار بدون لقطة
يُعدّ برنامج CoT بدون أمثلة الخيار الأخف وزنًا: فأنت لا تُقدّم أمثلة، بل تُضيف فقط تعليمات التفكير. إن عبارات مثل "دعونا نفكر خطوة بخطوة"، و"حل هذا بعناية، خطوة بخطوة" أو "اشرح منطقك قبل الإجابة" هي محفزات معروفة تعمل على تنشيط سلوكيات التفكير المتعلمة للنموذج.
من الناحية التجريبية، يمكن أن يكون لهذا التعديل البسيط تأثير كبير. في اختبارات الأداء الحسابي، أظهرت الدراسات الأولية ارتفاعًا في الدقة من حوالي 10% إلى أكثر من 40% بمجرد إضافة تعليمات خطوة بخطوة. ستحصل على تحسن كبير في جودة الاستدلال دون الحاجة إلى إنشاء مكتبة أمثلة أو صيانتها.
تتألق تقنية "التدريب بدون تدريب" عندما تريد تحقيق فوز سريع في مهام الاستدلال العامة وتهتم بزمن الاستجابة والتكلفة. تبقى التعليمات قصيرة، لذا تدفع مقابل عدد أقل من الرموز وبناء سياق أقل، مع الاستمرار في الحصول على قابلية تفسير ودقة كبيرتين.
الجانب السلبي هو أن النموذج يجب أن يبتكر أسلوبه الخاص في التفكير، والذي قد يكون مطولاً، أو غير متسق عبر المجالات، أو غير منطقي في بعض الأحيان حتى عندما تبدو الإجابة النهائية جيدة. أما بالنسبة للمجالات المتخصصة - التمويل، والطب، والقانون، والقرارات المتعلقة بالسلامة - فإن هذا عادة لا يكفي.
سلسلة أفكار موجزة
تعتمد طريقة "التدريب على حل المشكلات باستخدام عدد قليل من الأمثلة" على نهج أكثر تحديدًا للآراء: حيث تعرض أزواج الأسئلة والأجوبة كمثال نموذجي، حيث تتضمن الإجابات خطوات استدلال صريحة. بعد إجراء بضعة عروض توضيحية من هذا القبيل، تقوم بإضافة سؤالك الحقيقي وتترك النموذج يقلد النمط.
يُعد هذا النهج فعالاً للغاية عندما يكون لبنية الاستدلال الصحيح أهمية بالغة. بالنسبة لأداة التحليل المالي، يمكنك تضمين أمثلة توضح حسابات التدفق النقدي، ومعدلات الخصم، وتعديلات المخاطر. أما بالنسبة لروبوت الفرز الطبي، فيمكنك تضمين مخططات اتخاذ القرارات السريرية: الأعراض، والتاريخ المرضي، والعلامات التحذيرية، والتشخيص التفريقي، ثم التوصيات.
المقابل هو أن تقنية CoT ذات عدد قليل من الطلقات تتطلب جهداً هندسياً جاداً وسريعاً. يجب عليك تصميم أمثلة واضحة ومتنوعة، والتأكد من صحة منطقها وتمثيلها للواقع، وتحديثها باستمرار مع تطور قيود منتجك أو مجال عملك. كما أن الرسائل الطويلة تعني المزيد من الرموز، وتكلفة أعلى، وزمن استجابة أطول لكل استدعاء.
ومع ذلك، عندما يكون المجال حساسًا أو معقدًا، فإن CoT ذو عدد قليل من الأمثلة عادة ما يتفوق على CoT بدون أمثلة وغالبًا ما يكون هو الأساس الذي سترغب فيه في الإنتاج. ستحصل على مزيد من التحكم في أسلوب وعمق التفكير، ويمكنك توجيه النموذج بعيدًا عن أنماط التفكير الهشة أو غير ذات الصلة.
سلسلة التفكير التلقائية (Auto-CoT)
إن صياغة أمثلة جيدة لسلسلة الأفكار يدوياً لا تتناسب مع حجم النموذج، لذلك اقترح الباحثون سلسلة الأفكار التلقائية (Auto-CoT) لتفريغ معظم هذا العمل وإعادته إلى النموذج. الفكرة هي توليد سلاسل استدلال متنوعة تلقائيًا يمكنك إعادة استخدامها كعروض توضيحية.
عادةً ما يتم تنفيذ عملية Auto-CoT على مرحلتين:
- تجميع الأسئلة: تأخذ مجموعة بيانات من المشكلات، وتضمّنها (على سبيل المثال باستخدام محوّل الجمل)، وتجمّعها بحيث تنتهي الأسئلة المتشابهة معًا.
- أخذ عينات توضيحية: من كل مجموعة، تقوم باختيار سؤال تمثيلي وتطلب من نموذج التعلم الخطي (LLM) إنشاء سلسلة استدلالية بدون استخدام CoT، وعادةً ما تستخدم بعض الطرق الاستدلالية البسيطة مثل "أسئلة قصيرة مع ~5 خطوات استدلالية".
والنتيجة هي مكتبة من أمثلة CoT المتنوعة بشكل معقول والتي يتم إنشاؤها تلقائيًا دون الحاجة إلى تأليف يدوي. عندما يصل استعلام جديد، يمكنك استرداد أو أخذ عينات من العروض التوضيحية ذات الصلة من هذه المكتبة ووضعها في الموجه كأمثلة CoT قليلة الطلقات.
على الرغم من أن بعض السلاسل التي يتم إنشاؤها تلقائيًا قد تحتوي على أخطاء صغيرة، إلا أن التنوع والاسترجاع يميلان إلى تخفيف تأثير أي مثال معيب واحد. من الناحية العملية، غالبًا ما يتفوق Auto-CoT على كل من CoT الخام بدون أمثلة و CoT الساذج ذي الأمثلة القليلة في معايير الاستدلال، مع توفير الكثير من الوقت البشري.
الاتساق الذاتي عبر مسارات استدلال متعددة
الاتساق الذاتي هو امتداد متقدم يستبدل القدرة الحاسوبية بالموثوقية. بدلاً من مطالبة النموذج بسلسلة استدلال واحدة وإجابة واحدة، تقوم بأخذ عينات من عدة سلاسل مستقلة (عن طريق تعديل درجة الحرارة أو معلمات أخذ العينات)، ثم تجمع الإجابات النهائية من خلال التصويت بالأغلبية.
الحدس هو أن هناك العديد من مسارات الاستدلال الصحيحة التي تؤدي إلى نفس الإجابة الصحيحة، لكن المسارات الخاطئة غالباً ما تتباعد. على سبيل المثال، يمكن حساب "15 - 3 + 8" على النحو التالي: "12 + 8"، أو "15 + 8 = 23، ثم اطرح 3"، أو "الحساب من اليسار إلى اليمين". جميع هذه الطرق تُنتج 20، ولكن قد تنتهي سلسلة غير مكتملة بالنتيجة 21. عند إجراء عدة تجارب، غالبًا ما يتم تجاهل الإجابة الخاطئة.
في معايير مثل GSM8K، أدى تطبيق الاتساق الذاتي على CoT إلى تحسينات بنسبة مئوية مكونة من رقمين في الدقة. المشكلة الواضحة هي أنك تقوم الآن بإجراء عدة استدعاءات LLM لكل استعلام مستخدم، مما يضاعف كلاً من زمن الاستجابة وإنفاق الرموز المميزة بعدد العينات.
وهذا يجعل الاتساق الذاتي الأنسب لأعباء العمل عالية المخاطر: الحسابات المالية، والاستدلال القانوني، ودعم القرارات السريرية، وفحوصات السلامة. بالنسبة لروبوت محادثة عادي، نادراً ما تكون الحوسبة الإضافية مجدية، ولكن بالنسبة لوكيل ذي أهمية بالغة، يمكن أن تكون الموثوقية الإضافية تستحق كل جزء من الثانية.
شجرة الأفكار: التفرع بدلاً من التفكير الخطي
شجرة الأفكار (ToT) توسع سلسلة الأفكار من سلسلة واحدة إلى شجرة بحث متفرعة على الأفكار المحتملة. بدلاً من اتباع مسار استدلال واحد من البداية إلى النهاية، يستكشف النظام عدة خيارات في كل خطوة، ويقص الفروع الضعيفة ويستمر في اتباع الفروع الأقوى.
هذا أقرب إلى الطريقة التي ستتعامل بها مع مسائل التوافق أو الاستراتيجية في ذهنك. تقوم بطرح بعض الأفكار حول الخطوات المحتملة، وتستكشفها جزئياً، وتستبعد تلك التي تبدو مسدودة، وتستمر في توسيع الاتجاهات الواعدة حتى تصل إلى حل قوي.
من الناحية التنفيذية، يقوم نظام ToT عادةً بتنسيق العديد من مكالمات LLM. في كل مستوى من مستويات الشجرة، يقترح النموذج الخطوات التالية؛ حيث يقوم المتحكم بتقييم الحالات الجزئية، ربما باستخدام نموذج خطي مختلط آخر أو نظام تسجيل استدلالي، ويختار الفروع التي سيتم توسيعها. وقد استخدمت العروض التوضيحية البحثية نموذج الشجرة لمعالجة ألعاب الألغاز ومهام التخطيط وتوليد الأفكار الإبداعية بنتائج أفضل بكثير من نموذج الشجرة التقليدي.
المقابل هو التكلفة: فقد تحتاج إلى عشرات المكالمات لحل مشكلة واحدة. ولهذا السبب، يُفضل استخدام ToT في المجالات المتخصصة التي يكون فيها الاستكشاف الشامل أكثر أهمية من السرعة - مثل التصميم المعقد، أو وكلاء لعب الألعاب، أو العصف الذهني حيث يكون العمق والتنوع هما الهدفان.
من الأقل إلى الأكثر تحفيزًا
يُعد أسلوب التلقين من الأقل إلى الأكثر استراتيجية متقدمة أخرى تقوم بتقسيم المشكلة المعقدة إلى مشاكل فرعية أبسط يتم التعامل معها بالتسلسل. أولاً، تطلب من النموذج تحديد المهمة الفرعية الدنيا التي يمكنه حلها؛ ثم تقوم بإعادة إدخال هذا الحل وتطلب المكون الأكثر تعقيدًا التالي؛ وهكذا حتى يتم حل المشكلة بالكامل.
يُعد هذا النمط فعالاً بشكل خاص في التفكير التركيبي. تخيل استعلامات بنية البيانات المتداخلة، أو العمليات الجبرية متعددة الخطوات، أو توليد التعليمات البرمجية للميزات المعقدة حيث يعتمد كل جزء على المخرجات السابقة. من خلال فرض تفكيك واضح، تقلل العبء المعرفي على النموذج في كل خطوة، وتجعل تتبع الاستدلال العام أسهل في الفحص.
سلسلة التفكير في الأنظمة الفاعلة والأنظمة التي تستخدم الأدوات
تصبح CoT أكثر قيمة بمجرد البدء في بناء وكلاء يقومون باتخاذ الإجراءات، واستدعاء الأدوات، والتخطيط عبر خطوات متعددة. بدلاً من الإجابة على سؤال واحد والتوقف، تدور هذه الأنظمة في دورات من التفكير والتصرف والملاحظة، وتحديث خططها مع كل معلومة جديدة.
تخيل موظف دعم يتعامل مع السؤال التالي: "لقد طلبت سترة حمراء يوم الثلاثاء الماضي، لكنني استلمت سترة زرقاء. هل يمكنني إرجاعها؟" قد يكون مسار السلوك المعقول كالتالي: فهم المشكلة، والعثور على الطلب، والتحقق من سياسة الإرجاع، والتحقق من فترة الإرجاع، وتحديد الأهلية، وأخيراً بدء عملية الإرجاع.
مع التوجيه المباشر، قد ينتقل الموظف إلى "بالتأكيد، إليك ملصق" أو "لا، لا يمكننا فعل ذلك" بناءً على مطابقة سريعة للنمط، متجاوزًا عمليات التحقق الحاسمة. باستخدام ميزة "سلسلة الأفكار"، يمكنك تشجيعها على سرد شيء مثل: "سأبحث أولاً عن طلبك من يوم الثلاثاء الماضي، ثم أتحقق من عدم تطابق المنتج واللون، ثم أتحقق مما إذا كنت ضمن فترة الـ 30 يومًا، ثم أقوم بتشغيل عملية الإرجاع إذا كنت مؤهلاً".
هذا قريب من نمط ReAct (السبب + الفعل): يتناوب العامل بين التفكير الداخلي ("أحتاج إلى الاستعلام عن واجهة برمجة تطبيقات الطلبات") والإجراءات الخارجية (إجراء مكالمة واجهة برمجة التطبيقات)، ثم يدمج الملاحظات في خطوة التفكير التالية. تصبح كل "فكرة" جزءًا من التتبع الذي يمكنك تسجيله وتصحيحه وتحليله.
بالنسبة للأنظمة الآلية، فإن CoT ليس مجرد ميزة إضافية؛ بل هو في كثير من الأحيان الرافعة الرئيسية للموثوقية والشفافية والسلامة. عندما يحدث عطل ما - أداة خاطئة، أو معلمات خاطئة، أو تفسير خاطئ - يمكنك بالفعل معرفة أين انحرف الوكيل عن مساره وإصلاح المطالبات أو الأدوات أو السياسة بدلاً من التخمين في الظلام.
التسلسل التحفيزي مقابل تسلسل الأفكار
يساعد كل من تسلسل التلقين وسلسلة الأفكار في إنجاز المهام المعقدة، لكنهما يعملان على مستويات مختلفة. باستخدام تسلسل المطالبات، يمكنك تقسيم سير العمل الكبير عبر عدة مطالبات منفصلة، وتوجيه مخرجات كل منها إلى التالية. أما باستخدام CoT، فيمكنك تضمين عملية الاستدلال بأكملها داخل عملية تبادل واحدة بين المطالبة والاستجابة.
مثال على تسلسل الأوامر: تحليل كتاب في ثلاث خطوات: أولاً، كتابة ملخص للحبكة، ثم تحليل الفكرة الرئيسية باستخدام هذا الملخص، وأخيراً كتابة مراجعة نهائية باستخدام كليهما. كل خطوة عبارة عن جلسة منفصلة ضمن برنامج الماجستير في القانون، ولكل منها تعليماتها الخاصة.
مثال على تسلسل الأفكار لمهمة مماثلة: في سؤال واحد تقول: "أولاً، لخص الحبكة، ثم حدد المواضيع الرئيسية، ثم اختتم بنظرة نقدية موجزة. فكر في كل مرحلة خطوة بخطوة." ثم يقوم النموذج بإنشاء سلسلة أفكار مصغرة خاصة به والإجابة النهائية دفعة واحدة.
في الواقع العملي، غالباً ما تجمع الأنظمة الحقيقية بين الاثنين: استخدام CoT داخل كل خطوة متسلسلة لتحسين الاستدلال، وربط العديد من المطالبات المعززة بـ CoT لتنسيق سير العمل الطويل. الفرق الرئيسي هو أن ربط المطالبات ينظم سير العمل الكلي عبر مكالمات متعددة، بينما ينظم "سلسلة الأفكار" التفكير الجزئي داخل كل مكالمة.
سلسلة فكرية متعددة الوسائط
مع نضوج النماذج متعددة الوسائط، لم يعد مفهوم "سلسلة الأفكار" مقتصراً على النصوص البحتة. تتيح تقنية CoT متعددة الوسائط للنظام التفكير بشكل مشترك عبر النصوص والصور وربما مدخلات أخرى مثل الصوت أو الجداول، مع الاستمرار في سرد خطواته الداخلية.
التقط صورة لشاطئ مزدحم واطرح السؤال التالي: "هل يبدو هذا المكان شائعًا بين السياح في الوقت الحالي؟" قد يشير نموذج CoT متعدد الوسائط بشكل صريح إلى عدد المظلات، وكثافة الناس، وموقف السيارات المزدحم، والإشارات من وقت اليوم أو الظلال، ثم يجادل بأن كل هذه الإشارات المرئية تشير إلى شعبية عالية حالية.
من خلال جعل التفكير البصري واضحًا، لن تحصل فقط على دقة أفضل، بل ستحصل أيضًا على قرارات أكثر قابلية للتفسير. يمكن للمستخدمين رؤية العناصر التي ركز عليها النموذج في الصورة، ويمكنك رصد حالات الفشل مثل الإفراط في فهرسة التفاصيل غير ذات الصلة.
تحسين سلسلة التفكير على نطاق واسع
بمجرد الانتقال من بعض العروض التوضيحية إلى حركة المرور الحقيقية، تتضح الحقيقة المعقدة: تعتمد فعالية CoT بشكل كبير على المهمة، تحديثات النموذج ودليل الترحيل، والصياغة والأمثلة المحددة التي تقدمها له. قد يؤدي التفكير الجيد إلى إجابات خاطئة، وقد تؤدي سلاسل التفكير المطولة إلى استنزاف الرموز دون إضافة قيمة كبيرة.
لكي تعمل تقنية CoT في بيئة الإنتاج، أنت بحاجة إلى حلقة تغذية راجعة تتعقب عدة أبعاد في وقت واحد:
- الدقة النهائية: هل تتطابق إجابة النموذج مع الحقيقة المتوقعة أو الحكم البشري؟
- جودة التفكير: هل الخطوات الوسيطة صالحة ومتسقة منطقياً ومتوافقة مع قيود المجال؟
- الاتساق: هل تؤدي الاستعلامات المتشابهة إلى استنتاجات وإجابات متشابهة عبر عمليات التشغيل ومع مرور الوقت؟
- كفاءة الرمز: كم عدد الرموز المميزة التي تنفقها لكل استعلام، وهل تحصل على جودة كافية في المقابل؟
لا يكفي إجراء فحص يدوي عشوائي على عدد قليل من الأمثلة بمجرد أن يكون لديك العشرات من المتغيرات الموجهة ومئات من حالات الاختبار. أنت بحاجة إلى بنية تحتية قادرة على إصدار المطالبات، وتشغيل التقييمات المنظمة، وتصور آثار الاستدلال على نطاق واسع.
تساعد أدوات المراقبة المصممة خصيصًا لنماذج التعلم الموجه هنا من خلال التقاط آثار كاملة - الموجه، والنموذج، واستدلال CoT، واستدعاءات الأدوات، والإخراج النهائي - لكل طلب. تتيح لك منصات مثل Opik، على سبيل المثال، تسجيل وفحص سلاسل CoT بالتفصيل، ومقارنة إصدارات مختلفة من المطالبات، وحتى استخدام إعدادات LLM-as-a-judge لتقييم كل من الإجابات النهائية وجودة الاستدلال تلقائيًا.
باستخدام تلك البيانات، يمكنك تحسين إعدادات CoT الخاصة بك تدريجيًا: تعديل الصياغة، واستبدال صفر لقطة بعدد قليل من اللقطات، وضبط أو إعادة إنشاء الأمثلة باستخدام Auto-CoT، أو إدخال الاتساق الذاتي فقط حيثما يؤدي ذلك إلى تغيير النتيجة. بل إن بعض الأطر تتكامل مع مكتبات التحسين مثل DSPy أو البحث التطوري لتطوير مطالبات أفضل بشكل متكرر بناءً على مقاييس التقييم.
ضع في اعتبارك أن سلسلة الأفكار تكلف دائمًا أكثر من الإجابة المباشرة: يمكن أن يؤدي نص الاستدلال وحده إلى زيادة استخدام الرموز بمقدار 2-4 أضعاف، ويضاعف الاتساق الذاتي ذلك بعدد العينات، ويمكن أن تكون شجرة الأفكار أكثر تكلفة بمقدار عشرة أضعاف مرة أخرى. لهذا السبب أنت بحاجة إلى مراقبة واضحة، حتى تعرف بالضبط أين تؤتي تلك الميزانية الإضافية ثمارها.
بالنسبة للعديد من الفرق، فإن الاستراتيجية العملية متعددة المستويات: الوضع الافتراضي هو استخدام CoT خفيف بدون أمثلة أو CoT قصير مع أمثلة قليلة، والتصعيد إلى الاتساق الذاتي أو ToT فقط للاستعلامات التي تم تصنيفها على أنها ذات قيمة عالية أو غموض عالٍ أو مخاطر عالية. إن إمكانية الملاحظة والتقييم هما ما يجعل هذا النوع من الاستراتيجيات الديناميكية ممكناً.
أثناء تجربتك لـ CoT في تطبيقاتك الخاصة - سواء من خلال مطالبات سريعة بدون أمثلة، أو أمثلة قليلة مختارة بعناية، أو مكتبات Auto-CoT الآلية، أو الاتساق الذاتي متعدد العينات - فإن المفتاح هو التعامل مع منطق النموذج كسطح منتج من الدرجة الأولى. اجعلها واضحة، وسجلها، وقم بتقييمها، وكررها، وستتمكن من فتح سلوك أكثر موثوقية وقابلية للتفسير وقوة من نفس النماذج الأساسية أكثر مما يمكنك الحصول عليه من خلال إجابات بسيطة لمرة واحدة.
