نماذج اللغة من الصفر: من الرموز إلى نماذج اللغة المحلية

آخر تحديث: 02/09/2026
نبذة عن الكاتب: ج مصدر تريل
  • تتنبأ نماذج اللغة الكبيرة بالرموز باستخدام المحولات والانتباه على مجموعات نصوص ضخمة، وليس قواعد بيانات رمزية.
  • يحدد تصميم المُجزئ، وعدد المعلمات، ونافذة السياق، ودرجة الحرارة مدى قدرة وإبداع نموذج اللغة المبسط.
  • إن الأنظمة البيئية المفتوحة والمغلقة والمتخصصة في التعلم القائم على التعلم بالإضافة إلى التكميم تجعل من الممكن تشغيل نماذج قوية على أجهزة المستهلك.
  • تتيح برامج الماجستير في القانون استخدامات البحث والبرمجة والتحليلات، ولكنها تجلب تحديات مثل الهلوسة والتحيز والأمان وقابلية التوسع.

نماذج لغوية كبيرة من الصفر

عندما تكتب على هاتفك وترى لوحة المفاتيح تخمن الكلمة التالية، فإنك تحصل على لمحة صغيرة عما يفعله نموذج اللغة الكبير (LLM).يكمن الاختلاف في النطاق: فبدلاً من استخدام الأحرف أو الكلمات الأخيرة فقط، يعتمد نموذج التعلم اللغوي على أنماط مُستخلصة من كم هائل من النصوص المتاحة على الإنترنت، مُضغوطة في شبكة عصبية ضخمة. إذا سألته عن عاصمة اليابان، فلن يفتح قاعدة بيانات جغرافية؛ بل سيحسب ببساطة أنه بعد سلسلة الكلمات التي كتبتها، فإن الرمز المقابل لكلمة "طوكيو" لديه احتمالية عالية للغاية ليكون الناتج التالي.

يُعد فهم كيفية عمل هذه النماذج من الأساس أمرًا بالغ الأهمية إذا كنت ترغب في بنائها أو اختيارها أو نشرها أو ببساطة استخدامها بذكاء.في هذا الدليل، سنشرح بلغة بسيطة وواضحة جميع جوانب أنظمة التعلم الآلي الحديثة: الرموز، والمحولات، والمعاملات، ونوافذ السياق، ودرجة الحرارة، وتصميم المُجزئ، والأنظمة المفتوحة مقابل المغلقة، والتكميم، والمفاضلات بين الأجهزة، والتدريب، والضبط الدقيق، والقيود والفوائد العملية، بالإضافة إلى موارد حول منصات تقييم نماذج اللغة مفتوحة المصدرالهدف هو تبسيط المصطلحات حتى تتمكن من التفكير في نماذج اللغة مثل الممارس بدلاً من التعامل معها على أنها سحر أسود.

من الكلمات إلى الرموز: كيف يقرأ طلاب ماجستير القانون النصوص فعلاً

على الرغم من أن استجاباتهم تبدو طبيعية، إلا أن نماذج التعلم الآلي لا تتعامل مع الحروف أو الكلمات الكاملة بالطريقة التي يتعامل بها البشر؛ بل تتعامل مع الرموز.الرمز هو وحدة نصية صغيرة يُحددها مُجزئ الكلمات: قد تكون كلمة قصيرة كاملة مثل "قطة"، أو بادئة كلمة فرعية مثل "غير"، أو لاحقة، أو علامة ترقيم، أو حتى مسافة. يعتمد التقسيم الدقيق على كيفية بناء مُفردات مُجزئ الكلمات.

هذا المنظور القائم على الرموز يفسر العديد من السلوكيات التي تبدو غريبة لنماذج اللغةلنأخذ السؤال الكلاسيكي: "كم عدد حروف الراء في كلمة 'strawberry'؟". ستجيب العديد من النماذج برقم 2، ليس لأنها لا تستطيع العد، بل لأنها قد تعتبر الكلمة داخليًا وحدتين منفصلتين مثل "straw" + "berry". عند هذا المستوى، تكون الحروف الفردية غير مرئية. ما لم تُجبر النموذج صراحةً على تهجئة الكلمة حرفًا حرفًا، فلن يتمكن من عد حروف الراء بدقة لأن كل وحدة تُعامل كرمز غير قابل للتجزئة.

تؤثر جودة التجزئة بشكل كبير على مدى دقة النموذج وكفاءته في استخدام البياناتأظهرت أبحاثٌ مثل تجارب TokenMonster، التي دُرِّبت فيها 16 نموذجًا من الصفر باستخدام مفرداتٍ مختلفة، تتراوح معلماتها بين 90 مليونًا و354 مليونًا تقريبًا، أن تصميم مُجزِّئ الكلمات المُتقن يتفوق على الأساليب القديمة مثل مُجزِّئ GPT-2 أو p50k_base الخاص بـ tiktoken في العديد من المعايير. في هذه التجارب، حسَّنت مُجزِّئات الكلمات الأكثر كفاءة دقة المعلومات في معايير الإجابة على الأسئلة (مثل SMLQA وSQuAD) دون أن تجعل النص بالضرورة أكثر سلاسةً أو بلاغةً.

إحدى الأفكار الرئيسية هي أن خسارة التحقق ودرجة F1 قد تصبحان مضللتين عند مقارنة النماذج المبنية باستخدام أدوات تجزئة مختلفة.يرتبط فقدان التحقق ارتباطًا وثيقًا بنسبة الضغط (متوسط ​​عدد الأحرف لكل رمز). فإذا ضغط مُجزئ الكلمات عددًا أكبر من الأحرف في كل رمز، سيختلف معدل الفقد لكل رمز بشكل طبيعي، حتى لو كانت جودة نموذج اللغة الأساسي متشابهة. لذا، يُعدّ معدل الفقد لكل حرف مقارنة أكثر منطقية. وبالمثل، يُعاقب مقياس F1 الإجابات الطويلة بشدة، لذا قد تبدو النماذج التي تُقدّم إجابات أكثر تفصيلًا أسوأ وفقًا لمقياس F1 حتى وإن كانت أكثر فائدة في الواقع.

محرك المحول وسحر الانتباه

من الناحية التقنية، تعتمد وحدات LLM الحديثة بشكل شبه حصري على بنية المحول التي تم تقديمها في عام 2017يشير الحرف "T" في أسماء مثل GPT إلى "المُحوِّل". وقد حلّ هذا التصميم محلّ البنى المتكررة والالتفافية السابقة لأنه يتميز بقابلية توسع أفضل بكثير، كما أنه يلتقط التبعيات بعيدة المدى في النصوص بشكل أكثر فعالية.

يكمن الابتكار الأساسي في المحولات في آلية الانتباه الذاتي، التي تسمح للنموذج بالنظر إلى جميع الرموز في تسلسل واحد.كانت النماذج السابقة تعالج النصوص من اليسار إلى اليمين بشكل صارم، وكانت تميل إلى "نسيان" بداية الجمل الطويلة عند الوصول إلى نهايتها. في المقابل، يُعطي الانتباه الذاتي وزنًا مُكتسبًا لكل زوج من الكلمات، مما يسمح للنموذج بربط، على سبيل المثال، فاعل الجملة بالفعل بعد عدة كلمات بشكل مباشر.

لجعل هذا يعمل عدديًا، يتم أولاً تعيين كل رمز مميز إلى متجه كثيف، يسمى التضمينتُعدّ التضمينات تمثيلات مُتعلّمة تُرتّب العناصر ذات الصلة الدلالية بالقرب من بعضها في فضاء المتجهات. ففي مقال عن الكلاب، ستكون متجهات كلمتي "نباح" و"كلب" أقرب بكثير من متجهات كلمتي "نباح" و"شجرة"، لأن النموذج قد شاهدها تتكرر معًا في سياقات متشابهة أثناء التدريب. كما تُضيف المُحوّلات ترميزات موضعية بحيث يعرف كل رمز موقعه النسبي في التسلسل.

في كل طبقة انتباه، يتم إسقاط كل تضمين إلى ثلاثة متجهات مختلفة: الاستعلام (Q) والمفتاح (K) والقيمة (V).بشكل بديهي، يُعبّر الاستعلام عمّا يبحث عنه الرمز المميز الحالي في الرموز المميزة الأخرى، ويمثل المفتاح ما يُقدّمه كل رمز مميز للآخرين، أما القيمة فهي حمولة المعلومات الفعلية التي تُدمج. تُحسب درجات الانتباه كنسبة تشابه بين الاستعلامات والمفاتيح، ثم تُحوّل إلى أوزان. تتحكم هذه الأوزان في مقدار كل متجه قيمة يتدفق إلى التمثيل المُحدّث للرمز المميز.

يؤدي تكديس العديد من طبقات الانتباه الذاتي والتغذية الأمامية إلى إنتاج تمثيلات سياقية غنية تشفر القواعد والحقائق وأنماط الاستدلالتدعم نماذج المحولات المعالجة المتوازية المكثفة، مما جعل التدريب على مجموعات نصوص ضخمة أمراً ممكناً. بمرور الوقت، تقوم مليارات المعلمات المُتعلمة - والتي تُمثل أساساً الأوزان الداخلية للشبكة - بتشفير كل شيء بدءاً من القواعد النحوية وصولاً إلى المعرفة العامة وحتى استراتيجيات حل المشكلات المجردة.

المعلمات، ونافذة السياق، ودرجة الحرارة: مسرد مصطلحات برنامج الماجستير في القانون

كلما تصفحت منصات الذكاء الاصطناعي أو مستودعات النماذج، ستصادف سلاسل غامضة مثل "70B" أو "8B-Instruct" أو "temp=0.8".هذه ليست رموزًا نووية؛ إنها مجرد اختصارات لخصائص أساسية تحدد كيفية عمل وحدة معالجة البيانات (LLM) وما تحتاجه من أجهزة. فهمها سيجنبك الكثير من الحيرة وخيارات التكوين الخاطئة.

تُعتبر المعلمات بمثابة نظير تقريبي للخلايا العصبية أو المشابك العصبية في الدماغ البيولوجيهي الأوزان العددية التي تُعدّلها عملية التدريب لتقليل خطأ التنبؤ. يمتلك نموذجٌ ذو 7 مليارات مُعامل (7B) قدرة تمثيلية أقل بكثير من نموذجٍ ذي 400 مليار مُعامل أو أكثر، تمامًا كما أن الشبكة العصبية الصغيرة أقل مرونة من الشبكة الضخمة. تبدو النطاقات غير الرسمية النموذجية كما يلي:

  • 7ب-9ب: النماذج الأصغر حجماً مثل Llama-3 8B أو Gemma-2 9B. إنها خفيفة بما يكفي لتشغيلها على جهاز كمبيوتر شخصي جيد، ولكن إذا دفعت بها إلى التفكير المعقد أو المعرفة المتخصصة، فإنها أكثر عرضة "للهلوسة" - أي إنتاج نص يبدو معقولاً ولكنه غير صحيح.
  • 70B: تُعدّ الحواسيب العملاقة متوسطة الحجم مثل Llama-3 70B مثالاً على ذلك. فهي توفر توازناً مثالياً بين عمق التحليل وسهولة الاستخدام العملي. غالباً ما تتطلب هذه الحواسيب وحدات معالجة رسومية قوية أو نشراً سحابياً، ويمكنها الوصول إلى مستوى أداء الخبراء أو تجاوزه في العديد من المهام.
  • 400B وما بعدها: نماذج حدودية فائقة الضخامة، مثل نماذج GPT-5 الافتراضية أو نماذج Gemini المتطورة. توفر هذه النماذج نطاقًا هائلاً من المعرفة والاستدلال، ولكن من المستحيل عمليًا تشغيلها محليًا؛ فهي موجودة في مراكز البيانات ويتم تقديمها عبر واجهات برمجة التطبيقات (APIs).

لا يعني وجود المزيد من المعايير بالضرورة "إجابات أفضل" في كل سيناريوتميل النماذج الأكبر حجمًا إلى امتلاك منطق أكثر قوة، لكن الجودة تعتمد أيضًا على البيانات، وأساليب التدريب، وكفاءة المُجزِّئ، والضبط الدقيق. لذا، فكِّر في عدد المعلمات على أنه قدرة معرفية كامنة أكثر من كونه درجة جودة مطلقة.

نافذة السياق هي الذاكرة قصيرة المدى للنموذج: عدد الرموز التي يمكنه أخذها في الاعتبار في وقت واحدكانت نماذج التعلم اللغوي المبكرة تعتمد على نوافذ سياقية تضم حوالي 4,000 رمز، أي ما يعادل تقريبًا 3,000 كلمة إنجليزية. أما الأنظمة الحديثة، فتستطيع التعامل مع مئات الآلاف أو حتى ملايين الرموز. هذا يعني أنه يمكنك تزويدها بكتاب كامل، والعديد من الأدلة التقنية، وقاعدة بيانات، ثم طرح أسئلة تعتمد على كل ذلك دون أن "ينسى" النموذج الأجزاء السابقة من المدخلات.

تتحكم درجة الحرارة في المفاضلة بين الحتمية والإبداع في خطوة أخذ العيناتعند درجة حرارة 0.0، يختار النموذج دائمًا الرمز التالي الأكثر احتمالًا، وهو مثالي لتوليد التعليمات البرمجية، أو العمليات الحسابية، أو استخراج البيانات المنظمة حيث يكون الاتساق مهمًا. عند درجات حرارة تتراوح بين 0.8 و1.0، يستكشف النموذج الرموز الأقل احتمالًا بشكل متكرر، مما قد ينتج عنه مخرجات أكثر أصالة أو إثارة للدهشة، وهو أمر مفيد للعصف الذهني، أو سرد القصص، أو الكتابة الشعرية. أما رفع درجة الحرارة بشكل مفرط (على سبيل المثال، فوق 1.5) فيجعل مخرجات النموذج غير مستقرة وغير مترابطة في كثير من الأحيان، كشخص يتحدث بلا وعي.

تصميم مُجزئ الكلمات وأهميته في تحقيق المصداقية

على الرغم من أن عملية التجزئة تبدو وكأنها تفصيل تنفيذي، إلا أنها تؤثر بشكل كبير على مدى كفاءة تعلم النموذج ومدى دقة استرجاعه للحقائق. تُظهر التجارب التي أجريت باستخدام مفردات TokenMonster أنه بالنسبة للنماذج المماثلة، يمكن للمجزئات المخصصة أن تتفوق على مفردات GPT-2 القياسية أو مفردات tiktoken عبر المعايير، حتى بدون تغيير البنية.

ومن أهم نتائج تلك الدراسات أن حجم المفردات المتوسط ​​الذي يبلغ حوالي 32,000 كلمة غالباً ما يكون هو الأنسب.تتميز المفردات الأصغر حجمًا ببنية أبسط، ما يسمح بتقارب أسرع أثناء التدريب، لكنها قد تجبر النموذج على تقسيم الكلمات إلى العديد من الوحدات الفرعية، الأمر الذي يزيد من طول التسلسل وتكلفة التدريب. أما المفردات الكبيرة جدًا، فقد تؤدي إلى فرط التخصيص للأنماط النادرة، ما يجعل التدريب أقل استقرارًا، دون أي تحسن ملحوظ في الجودة النهائية.

ومن المثير للاهتمام أن زيادة الضغط - أي زيادة عدد الأحرف لكل رمز - لا تؤثر بالضرورة على جودة النموذجالأهم من ذلك هو العيوب أو النواقص في مُجزئ الكلمات التي تجعل تمثيل أنماط معينة صعبًا. على سبيل المثال، يمكن للكلمات المتعددة أن تحقق ضغطًا كبيرًا، ولكنها قد تتسبب في انخفاض ملحوظ (حوالي 5% في بعض الاختبارات) في معايير ضمان الجودة الواقعية مثل SMLQA، على الرغم من تحسن نسبة الأحرف لكل كلمة بنسبة 13% تقريبًا.

كما يسلط البحث الضوء على أن أدوات تجزئة الكلمات تؤثر بشكل أساسي على قدرة النموذج على تخزين واسترجاع المعلومات الواقعية، وليس على طلاقته الظاهرية.نظرًا لسهولة تصحيح الأنماط النحوية أثناء عملية الانتشار العكسي مقارنةً بالارتباطات الواقعية الهشة، فإن أي هدر في القدرة أو عدم كفاءة على مستوى الكلمات يميل إلى التأثير سلبًا على المصداقية أولًا. والخلاصة بسيطة: مُجزِّئ كلمات أفضل يُنتج نموذجًا أكثر موثوقية، حتى لو بدا أسلوب الكتابة متشابهًا.

أنواع برامج الماجستير في القانون: المغلقة، والمفتوحة، والمفتوحة المصدر، والمتخصصة

انقسم النظام البيئي للذكاء الاصطناعي إلى عدة معسكرات بناءً على كيفية توزيع النماذج وما يُسمح لك بفعله بهايساعدك فهم هذه الفئات على اختيار الأداة المناسبة وتجنب المشاكل القانونية أو المتعلقة بالخصوصية غير المتوقعة.

النماذج المغلقة أو الخاصة هي الأسماء التجارية الكبرى التي يعرفها معظم الناسفكّر في إصدارات GPT الضخمة، مثل Gemini وClaude وما شابهها. مزاياها واضحة: أداء فائق، ونطاق سياقي واسع، وقدرات استدلال متقدمة، وإمكانيات متعددة الوسائط، وبنية تحتية مُحسّنة للغاية. لكن في المقابل، أنت لا تملك هذه النماذج فعليًا؛ إذ تُرسل بياناتك إلى خادم طرف ثالث، ويخضع استخدامك لسياساته وأسعاره، كما أن فلاتر الأمان قد تحجب الإجابات أو تُعيد تشكيلها بطرق لا يمكنك التحكم بها بشكل كامل.

تتخذ نماذج الأوزان المفتوحة (والتي غالباً ما تسمى خطأً بنماذج LLM "مفتوحة المصدر") مساراً وسطاًتُتيح الشركات ومراكز الأبحاث إمكانية تحميل نماذج الأوزان المُدرَّبة وتشغيلها محليًا أو على خوادمك الخاصة، لكنها عادةً ما تحتفظ بشفرة التدريب والمعلمات الفائقة ومجموعات البيانات الأولية كملكية خاصة بها. وتُعدّ عائلات مثل Llama-3 وMistral وQwen أمثلةً بارزةً على هذا النهج. بمجرد تحميل الأوزان على جهازك، يمكنك تشغيلها دون اتصال بالإنترنت، وحماية بياناتك، وتخصيصها، وتجاوز الرقابة - مع مراعاة شروط الترخيص بالطبع.

تتجاوز النماذج مفتوحة المصدر بالكامل ذلك من خلال نشر ليس فقط الأوزان ولكن أيضًا رمز التدريب ومجموعات البيانات.تندرج مشاريع مثل OLMo من معهد ألين ضمن هذه الفئة، وهي ذات قيمة خاصة لإجراء البحوث العلمية الدقيقة وضمان إمكانية تكرار النتائج. يمكنك مراجعة كيفية بناء النموذج بدقة، وإعادة تدريب المتغيرات، أو تكييف الوصفة مع مجال عملك.

تُفضّل النماذج المتخصصة أو الخاصة بمجال معين العمق على حساب الاتساع في مجال محدد.هذه وحدات إدارة التعلم أصغر حجمًا، غالبًا ما تكون أخف وزنًا بعشر مرات من الوحدات العملاقة متعددة الأغراض، ومصممة خصيصًا لتخصصات مثل الطب والقانون وهندسة البرمجيات. ضمن نطاق تخصصها، تتفوق هذه الوحدات على وحدات إدارة التعلم العامة الأكبر حجمًا بكثير، لأن كامل طاقتها مُركزة على مجال معرفي واحد. كما أنها أسهل في النشر على أجهزة ذات مواصفات متواضعة، مما يجعلها جذابة للشركات التي تحتاج إلى أداء قوي في مجموعة محددة من المهام.

قراءة اسم الطراز كالمحترفين

تمتلئ مستودعات النماذج مثل Hugging Face بأسماء تبدو وكأنها حساء أبجدي عشوائي.بمجرد أن تعرف كيفية تحليلها، فإن هذه الأسماء تشفر كل ما تحتاجه تقريبًا: الحجم، والغرض، والتنسيق، ومدى قوة ضغط الأوزان.

لنأخذ هذا المثال: "Llama-3-70b-Instruct-v1-GGUF-q4_k_m"لكل قطعة معنى محدد:

  1. لاما-3: عائلة النماذج وبنيتها، وفي هذه الحالة خط إنتاج Llama-3 من شركة Meta.
  2. 70b: حوالي 70 مليار مُعامل. هذا الحجم يُشير فوراً إلى أنك ستحتاج إلى أجهزة قوية - فكر في إعدادات وحدة معالجة الرسومات ذات ذاكرة الوصول العشوائي الكبيرة أو جهاز أبل عالي الأداء.
  3. إرشاد: يشير هذا إلى أن النموذج قد تم ضبطه بدقة ليتبع تعليمات اللغة الطبيعية ويتحدث مع البشر. إذا كنت ترغب في مساعد عام، فابحث دائمًا عن خيارات "التوجيه" أو "الدردشة"؛ فقد تستجيب النماذج الأساسية كما لو كانت تُكمل قائمة أو تسلسلًا بدلًا من الإجابة على سؤالك.
  4. GGUF: تنسيق الملف. تم تحسين GGUF للتشغيل على وحدات المعالجة المركزية ومعالجات Apple Silicon، وتستخدمه أدوات مثل LM Studio. تشمل التنسيقات الشائعة الأخرى EXL2 وGPTQ وAWQ للتطبيقات التي تركز على وحدات معالجة الرسومات (عادةً NVIDIA)، و"safetensors" للأوزان الخام التي قد تحتاج إلى تحويل إضافي.
  5. q4_k_m: علامة تكميم توضح كيفية ضغط الأوزان. يشير الرقم "4" إلى دقة 4 بت، وهي حل وسط متوسط ​​الجودة؛ ويشير "k_m" إلى طريقة K-quants معينة تحاول تقليص الخلايا العصبية الأقل أهمية بشكل أكثر فعالية مع الحفاظ على الخلايا العصبية المهمة.

تتيح لك القدرة على فك رموز هذه التصنيفات تقييم ما إذا كان النموذج مناسبًا لجهازك وحالة الاستخدام الخاصة بك على الفوريمكنك معرفة ما إذا كان موجهاً نحو الدردشة، ومدى ذكائه تقريباً، وما إذا كان مناسباً لوحدة المعالجة المركزية أو مُحسَّناً لوحدة معالجة الرسومات، ومقدار الدقة التي ربما تكون قد ضحيت بها من خلال التكميم.

التكميم: ضغط أدمغة عملاقة لتناسب الأجهزة الحقيقية

يمكن أن تكون نماذج LLM الحديثة ذات الدقة الكاملة ضخمة بشكل غير معقول - مئات الجيجابايت من الأوزان الخام.يمكن لنموذج ذي 70 مليار مُعامل بدقة 16 بت عائمة قياسية (FP16) أن يتجاوز بسهولة 140 جيجابايت، وهو ما يفوق بكثير قدرة وحدة معالجة الرسومات (GPU) الاستهلاكية الواحدة على التعامل معه. وهنا تبرز أهمية التكميم كتقنية أساسية تجعل النشر المحلي عمليًا.

من الناحية النظرية، تعني عملية التكميم استخدام عدد أقل من البتات لتخزين كل وزن، على حساب بعض الدقة العددية.بدلاً من تخزين قيمة مثل 0.123456 بعدد كبير من المنازل العشرية، يمكنك تخزين قيمة مثل 0.12 في تمثيل مُختصر. في نظام FP16، لديك 16 بت لكل وزن؛ بينما يستخدم نظام 4 بت ربع هذه المساحة التخزينية فقط. المفاجأة في الأبحاث الحديثة (بما في ذلك دراسات من عام 2025) هي أنه بالنسبة للعديد من مهام المحادثة والتلخيص، فإن الانتقال من 16 بت إلى 4 بت لا يُسبب سوى انخفاض طفيف في مستوى الذكاء المُدرك.

تستهدف مستويات وطرق التكميم المختلفة قيودًا مختلفة على الأجهزة ومفاضلات الجودة.يُعدّ التكوين Q4_K_M شائعًا بين المستخدمين العاديين. يشير "Q4" إلى 4 بتات لكل وزن، بينما يشير "K_M" إلى استراتيجية متقدمة تُفضّل ضغط الخلايا العصبية الأقل أهمية. يُمكن لهذا تقليص حجم النموذج بنسبة 70% تقريبًا مع الحفاظ على حوالي 98% من قدرته على الاستدلال، مما يجعله مناسبًا للمحادثات اليومية، والشرح، وإنشاء المحتوى.

قد يؤدي الضغط المفرط إلى إحداث خلل كبير في النموذج.تُتيح مخططات Q2 أو IQ2، التي تُقلل الأوزان إلى بتتين، تحميل نماذج ضخمة على وحدات معالجة رسومية محدودة للغاية، ولكن ثمن ذلك باهظ: حلقات تكرارية متكررة، وعبارات مُكررة، وفقدان البنية المنطقية، وتدهور كبير في أداء المهام الرياضية أو البرمجية. قد تكون هذه المخططات ممتعة للتجربة، لكنها نادرًا ما تكون مناسبة للأعمال الجادة.

يؤثر التكميم على التفكير المجرد بشكل أكبر من جودة الكتابة السطحية.وجدت ورقة بحثية نُشرت عام 2025 بعنوان "هل يؤثر التكميم سلبًا على الاستدلال؟" أنه على الرغم من قدرة النموذج المُكمّم على إنتاج نصوص سلسة، إلا أنه يفقد كفاءته في الاختبارات المعيارية التي تتطلب منطقًا قويًا، مثل الرياضيات والبرمجة المتقدمة. إذا كانت احتياجاتك الأساسية تتضمن استدلالًا دقيقًا، أو مسائل فيزيائية، أو كتابة برامج جاهزة للاستخدام، فيُنصح باستخدام أعلى دقة يدعمها جهازك بشكل مريح، وغالبًا ما تكون Q6 أو Q8 للإعدادات المحلية.

تساعد قاعدة عامة مفيدة في تقدير ما إذا كان بإمكان وحدة معالجة الرسومات (GPU) معينة استضافة نموذج مُكمّماضرب عدد المليارات من المعاملات في حوالي 0.7 جيجابايت للحصول على متطلبات ذاكرة الوصول العشوائي للفيديو (VRAM) التقريبية لطراز الربع الرابع. على سبيل المثال، سيحتاج طراز 8B في الربع الرابع إلى حوالي 5.6 جيجابايت من ذاكرة الوصول العشوائي للفيديو (8 × 0.7)، وهو ما يناسب العديد من وحدات معالجة الرسومات متوسطة المدى. في المقابل، يحتاج طراز 70B في الربع الرابع إلى حوالي 49 جيجابايت من ذاكرة الوصول العشوائي للفيديو، وهو ما يتجاوز قدرة وحدة معالجة رسومات واحدة للمستهلكين؛ ستحتاج إلى عدة بطاقات رسومات متطورة أو خادم متخصص.

تشغيل برامج إدارة التعلم محليًا: مسارات NVIDIA مقابل مسارات Apple

قد يبدو تشغيل برنامج إدارة التعلم الجاد على جهازك الخاص أشبه بلعبة ألغاز متعلقة بالأجهزة، وقد تبلورت منظومة البرامج حول فلسفتين رئيسيتين للأجهزة.يعتمد أحد المسارات على وحدات معالجة الرسومات NVIDIA و CUDA من أجل السرعة الخام؛ بينما يستفيد المسار الآخر من بنية الذاكرة الموحدة لشركة Apple من أجل السعة الهائلة.

أما بالنسبة لشركة NVIDIA، فإن وحدات معالجة الرسومات من سلسلة RTX 3000 و4000 و5000 هي الرائدة بلا منازع في الإنتاجية.يمكن للاستدلال المُسرّع بتقنية CUDA توليد الرموز بسرعة تفوق سرعة قراءتها، خاصةً للنماذج الأصغر حجمًا التي تتراوح سعتها بين 7 و13 مليار رمز. إذا كانت أولويتك هي التفاعل السريع - على سبيل المثال، لوكلاء البرمجة أو المساعدين الفوريين - فهذا خيارٌ جذاب للغاية. أما الجانب السلبي فهو ارتفاع تكلفة ذاكرة الوصول العشوائي للفيديو (VRAM) ومحدوديتها: فبطاقة RTX 4090 الرائدة لا تزال توفر 24 جيجابايت فقط، مما يحدّ من عدد المعاملات إلى حوالي 30-35 مليار معامل عند مستويات تكميم مناسبة. وقد يتطلب التوسع إلى نموذج كامل بسعة 70 مليار رمز استخدام بطاقات متعددة أو أجهزة احترافية.

يرتكز مسار شركة آبل على أجهزة ماك المزودة بمعالجات من سلسلة M ومجموعات ذاكرة موحدة كبيرة.في هذه الأنظمة، تعمل نفس الذاكرة كذاكرة وصول عشوائي (RAM) وذاكرة وصول عشوائي للفيديو (VRAM)، مما يعني أن جهاز Mac Studio مزودًا بذاكرة موحدة سعة 192 جيجابايت يمكنه استضافة نماذج مُكمّمة ضخمة لا تستطيع معظم وحدات معالجة الرسومات الاستهلاكية سوى تخيلها. وقد أفاد المستخدمون بتشغيل نماذج مثل Llama-3.1 405B (مُكمّمة بشكل كبير) أو DeepSeek 67B مباشرةً على هذه الأجهزة. صحيح أن معدل نقل البيانات أبطأ من بطاقات NVIDIA الرائدة - حيث يتم توليد النصوص بوتيرة يمكن للبشر قراءتها بدلاً من دفعات فورية - إلا أنه بالنسبة للباحثين والمطورين الذين يُفضلون سعة النموذج الخام على السرعة، غالبًا ما تكون هذه هي الطريقة الأسهل لتشغيل أنظمة "من فئة GPT-4" محليًا.

يدعم كلا النظامين البيئيين أدوات سهلة الاستخدام تجعل الوصول إلى برامج التعلم المحلية في متناول الجميع.من بين أشهر البرامج في هذا المجال LM Studio وOllama. يوفر LM Studio واجهة رسومية أنيقة تشبه ChatGPT، مع ميزة البحث عن النماذج المدمجة (عبر Hugging Face)، وتنزيلات بنقرة واحدة، وأشرطة تمرير لضبط حجم السياق، ودرجة الحرارة، وحمل وحدة معالجة الرسومات مقابل وحدة المعالجة المركزية، وغير ذلك. أما Ollama، الذي يحظى بشعبية واسعة بين المطورين، فيوفر واجهة رسومية بسيطة وتحكمًا قويًا عبر سطر الأوامر، مما يسهل ربط النماذج المحلية بالمحررات، وأدوات تدوين الملاحظات، والتطبيقات المخصصة. واجهات برمجة التطبيقات.

تتمثل الميزة الرئيسية للنشر المحلي في التحكم: فلا تغادر مطالباتك ومستنداتك جهازك أبدًا، ولا يمكن لأي خدمة خارجية تقييد المحتوى أو حظره دون علمك.. ستحصل على الخصوصية وإمكانية التكرار وغالبًا ما تكون التكلفة الحدية أقل - خاصة إذا كنت تقوم بتشغيل أحمال عمل كبيرة ستكون مكلفة عبر واجهات برمجة التطبيقات المستضافة.

من التدريب المسبق إلى الضبط الدقيق والتوجيه

يمر كل برنامج ماجستير في القانون بمرحلتين مفاهيميتين على الأقل قبل أن ترسل إليه أي طلب: التدريب المسبق والتكيف. التدريب المسبق هو المرحلة التي يتعلم فيها النموذج أنماط اللغة العامة؛ أما التكيف (الضبط الدقيق أو ضبط الموجه) فهو كيف يصبح مفيدًا لمهام محددة.

أثناء مرحلة التدريب المسبق، يقوم النموذج باستيعاب مجموعات ضخمة من النصوص، والتي غالباً ما تتضمن مصادر مثل ويكيبيديا والكتب وصفحات الويب ومستودعات التعليمات البرمجية العامة.يُجري هذا النظام عملية تعلم غير مُشرف عليه من خلال محاولة التنبؤ بالرمز التالي في التسلسل بشكل متكرر، وقياس الخطأ باستخدام دالة خسارة. وباستخدام خوارزميتي الانتشار العكسي والانحدار التدريجي، يُعدّل مليارات الأوزان لتقليل هذه الخسارة. ومع مرور الوقت، ومع التعامل مع تريليونات الرموز، يستوعب النظام تدريجيًا قواعد اللغة، والدلالات، وحقائق العالم، وأساليب البرمجة، ونماذج الاستدلال الأساسية.

تعمل عملية الضبط الدقيق على تخصيص النموذج المدرب مسبقًا لنشاط أضيقعلى سبيل المثال، يمكنك ضبط نموذج اللغة واللغة (LLM) بدقة على مجموعات بيانات متوازية للترجمة، أو على أمثلة تحليل المشاعر المصنفة، أو على مستندات قانونية مشروحة بالإجابات الصحيحة. ويستمر النموذج في التدريب على مجموعات البيانات الخاصة بهذه المهام، مع تعديل معاييره بشكل طفيف لتحسين أدائه في هذا المجال دون إغفال قدراته العامة.

يوفر التكيف القائم على التوجيه (التوجيه بعدد قليل من الأمثلة أو بدون أمثلة) بديلاً أخف وزناً للضبط الدقيق.في إعدادٍ يعتمد على عددٍ قليلٍ من الأمثلة، تُضمّن جداول أو أمثلة صغيرة مباشرةً في التعليمات - على سبيل المثال، بعض تقييمات العملاء المصنفة على أنها إيجابية أو سلبية - ثم يُطلب من النموذج تصنيف تقييمات جديدة بنفس الأسلوب. أما في إعدادٍ لا يتطلب أي أمثلة، فتُوصَف المهمة ببساطة بلغة طبيعية ("معنى عبارة 'هذه النبتة مروعة' هو...")، ويُعتمد على تدريب النموذج المسبق لتحديد المطلوب. غالبًا ما تُحقق نماذج التعلم اللغوي الحديثة أداءً جيدًا بشكلٍ مُدهش في وضع التعلم الذي لا يتطلب أي أمثلة، وذلك بفضل قدراتها على "التعلم في السياق".

المكونات الأساسية داخل نموذج لغة كبير

من الناحية المعمارية، تتكون المباني ذات الطبقات المتعددة (LLMs) من طبقات عميقة من وحدات بناء بسيطة نسبياً تتكرر عدة مراتإن فهم الأجزاء الرئيسية يوضح ما يمكن تخصيصه أو استبداله عند تصميم أو اختيار نموذج.

تقوم طبقة التضمين بتحويل الرموز المنفصلة إلى متجهات متصلة.يتم تحويل كل فهرس رمزي من المفردات إلى متجه كثيف يشفر المعلومات الدلالية والنحوية. تنتقل هذه التمثيلات عبر الشبكة ويتم تحسينها تدريجيًا بواسطة طبقات الانتباه والتغذية الأمامية.

آلية الانتباه هي جوهر المحولكما ذُكر سابقاً، يسمح الانتباه الذاتي لكل رمز بوزن جميع الرموز الأخرى وفقاً لمعايير مُتعلمة، مما يُتيح التقاط التبعيات بعيدة المدى والإشارات السياقية. ويُوسّع الانتباه متعدد الرؤوس هذا من خلال السماح لعدة "وجهات نظر" أو فضاءات فرعية مختلفة بالانتباه بالتوازي، مما يُثري التمثيلات.

تقوم طبقات التغذية الأمامية أو "MLP" بتطبيق تحويلات غير خطية على التمثيلات المستهدفة.بعد أن تُحدد عملية الانتباه ما يجب أن يهتم به كل رمز، تقوم طبقات التغذية الأمامية بمزج هذه المعلومات وإعادة تشكيلها من خلال طبقات متصلة بالكامل ووظائف تنشيط. ويؤدي تكديس العديد من هذه الوحدات إلى بناء سمات هرمية معقدة.

من خلال تعديل كيفية دمج هذه المكونات وتوسيع نطاقها، ستحصل على أنواع مختلفة من النماذج. النماذج "الأساسية" البسيطة تتنبأ فقط بالرمز التالي؛ النماذج المعدلة للتعليمات تتعلم اتباع توجيهات اللغة الطبيعية؛ النماذج المعدلة للحوار يتم تحسينها للحفاظ على المحادثات متعددة الأدوار متماسكة ومفيدة.

مقارنة بين برامج التعلم القائمة على التعلم والذكاء الاصطناعي التوليدي بشكل عام

من السهل الخلط بين "نماذج اللغة الكبيرة" و"الذكاء الاصطناعي التوليدي"، لكن الأخير مصطلح شامل أوسع.يشمل الذكاء الاصطناعي التوليدي أي نظام قادر على توليد المحتوى - سواء كان نصًا أو صورًا أو صوتًا أو فيديو أو شفرة برمجية. وتُعدّ نماذج التعلم اللغوي نماذج توليدية تركز تحديدًا على النصوص، حيث يتم تدريبها على بيانات لغوية وتحسينها لإنتاج أو تحويل المحتوى النصي.

توجد العديد من الأدوات الشهيرة خارج فئة ماجستير القانون على الرغم من كونها أدوات توليديةتُنشئ مولدات الصور مثل DALL-E وMidJourney صورًا بدلًا من فقرات. كما تُعدّ نماذج الموسيقى وأنظمة توليف الفيديو ومولدات بنية البروتين من تطبيقات الذكاء الاصطناعي التوليدي، لكنها تعمل في بيئات إدخال وإخراج مختلفة تمامًا. وتتمثل الفكرة الرئيسية المشتركة بينها في أنها جميعًا تتعلم الربط بين تمثيل ما (غالبًا ما يكون مُوجِّهًا) ومخرجات واقعية في مجالها.

حالات استخدام واقعية: أين تتألق برامج الماجستير في القانون

بفضل قدراتها المرنة على فهم النصوص وتوليدها، أصبحت نماذج اللغة الأساسية محركات أساسية لمجموعة واسعة من التطبيقات. كان العديد من هذه المجالات في السابق عبارة عن فروع منفصلة من معالجة اللغة الطبيعية، ولكنها الآن تشترك في نموذج أساسي مشترك.

يُعد البحث واسترجاع المعلومات من أبرز المستفيدينيمكن لمحركات البحث تعزيز الفهرسة التقليدية القائمة على الكلمات المفتاحية من خلال الاسترجاع الدلالي والإجابات المولدة بواسطة نماذج اللغة، مما يوفر ملخصات موجزة أو إجابات تفاعلية بدلاً من مجرد قائمة روابط. تتيح أدوات مثل محرك Elasticsearch Relevance Engine (ESRE) للمطورين دمج نماذج المحولات مع البحث المتجهي. بنى البحث الموزعة لبناء تجارب بحث دلالي خاصة بمجالهم.

يُعد تحليل النصوص وتحليل المشاعر من التخصصات المناسبة أيضاً.تستخدم الشركات نماذج التعلم الآلي لتحليل تقييمات العملاء ومنشورات وسائل التواصل الاجتماعي وتذاكر الدعم، مع تصنيف المشاعر والأهمية والمواضيع تلقائيًا. ويمكن للمصنفات القائمة على التوجيهات أو المصنفات المُحسّنة أن تحل محل مسارات التعلم الآلي القديمة بإعدادات أبسط وأكثر مرونة.

ربما يكون توليد المحتوى والبرمجيات من أكثر الاستخدامات اليومية شيوعًابدءًا من صياغة رسائل البريد الإلكتروني والنصوص التسويقية وصولًا إلى إنتاج الشعر "على غرار" مؤلفين محددين، تستطيع نماذج التعلم الآلي توليد نصوص متماسكة ومناسبة للسياق على نطاق واسع. وبالمثل، تساعد النماذج الموجهة نحو البرمجة المطورين من خلال اقتراح إكمال التعليمات البرمجية، وكتابة التعليمات البرمجية الجاهزة، وشرح مقتطفات التعليمات البرمجية، أو حتى توليد وظائف كاملة من أوصاف اللغة الطبيعية، كما هو موضح في برنامج ماجستير في القانون (LLM) لتعلم SwiftUI من خلال التغذية الراجعة الآلية.

تعتمد برامج المحادثة الآلية وبرامج الدردشة الآلية بشكل شبه دائم على شكل من أشكال التعلم الآلي.غالباً ما يتطلب بناؤها تنسيقاً دقيقاً - انظر تصميم وبناء فرق وكلاء الذكاء الاصطناعيفي مجالات خدمة العملاء، وفرز الحالات الطبية، والإنتاجية الشخصية، والتعليم، تُفسّر نماذج المحادثة نوايا المستخدم وتستجيب بطريقة تُحاكي الحوار البشري. فهي قادرة على تذكّر الرسائل السابقة ضمن نافذة السياق، واتباع التعليمات، وتكييف نبرتها وأسلوبها.

تؤثر هذه القدرات على العديد من الصناعات في آن واحد.في مجال التكنولوجيا، تعمل برامج الماجستير في القانون على تسريع عملية البرمجة وتصحيح الأخطاء؛ وفي مجال الرعاية الصحية وعلوم الحياة، تساعد في تحليل الأوراق البحثية والملاحظات السريرية وحتى التسلسلات البيولوجية؛ وفي مجال التسويق، تدعم عملية ابتكار الحملات وكتابة النصوص الإعلانية؛ وفي المجالين القانوني والمالي، تساعد في صياغة المستندات وتلخيصها واكتشاف الأنماط؛ وفي مجال الخدمات المصرفية والأمن، تساعد في رصد السلوك الاحتيالي المحتمل في السجلات والرسائل الغنية بالنصوص.

الحدود والمخاطر والتحديات المفتوحة

على الرغم من قدراتهم المذهلة، فإن حاملي شهادات الماجستير في القانون ليسوا كليي المعرفة أو معصومين من الخطأ، والتعامل معهم على هذا الأساس قد يكون خطيرًا.إنها ترث العديد من نقاط الضعف من بياناتها وهيكلها، وتظهر نقاط ضعف جديدة من طريقة نشرها.

لا تزال الهلوسات - وهي أكاذيب تُقال بثقة - تشكل مصدر قلق كبيرلأن نموذج اللغة القانونية (LLM) هو في جوهره مُتنبئ بالرمز التالي، مُدرَّب على الأنماط لا على الحقائق المُثبتة، فقد يُختلق تفاصيل أو مصادر أو تجارب تبدو معقولة. وقد "يُفسِّر" واجهة برمجة تطبيقات (API) غير موجودة، أو يُؤكد حقائق قانونية خاطئة. لذا، تُعدّ الضوابط، والتوليد المُعزَّز بالاسترجاع (RAG)، والمراجعة البشرية أمورًا بالغة الأهمية في المواقف الحساسة.

كما أن مخاطر الأمن والخصوصية كبيرة أيضاً.قد تتسبب النماذج المُدارة بشكل سيئ في تسريب بيانات تدريب حساسة أو بيانات سرية، كما يمكن للمهاجمين استغلال نماذج التعلم الآلي في عمليات التصيد الاحتيالي، والهندسة الاجتماعية، والبريد العشوائي، وحملات التضليل. وتُعد هجمات حقن البيانات وتسريبها عبر مخرجات النماذج من المواضيع البحثية النشطة.

ترتبط مشكلات التحيز والإنصاف ارتباطًا وثيقًا بتكوين بيانات التدريب—اقرأ عن فخ التبعية في برنامج ماجستير القانونإذا كانت مجموعات البيانات تمثل فئات ديموغرافية أو وجهات نظر معينة تمثيلاً زائداً، فإن النموذج سيُضخّم هذه التحيزات في مخرجاته، مما قد يُهمّش مجموعات أو وجهات نظر أخرى. لذا، فإنّ انتقاء البيانات بعناية، وتقييم التحيزات، واستراتيجيات التخفيف منها أمور ضرورية، ولكنها لا تزال غير مثالية.

وتبرز قضايا الموافقة والملكية الفكرية بشكل كبير أيضاً.تم تجميع العديد من مجموعات بيانات التدريب الضخمة عن طريق استخراج المحتوى العام دون الحصول على إذن صريح من المؤلفين، مما أثار تساؤلات حول حقوق النشر وحماية البيانات والاستخدام الأخلاقي. وقد وصلت الدعاوى القضائية المتعلقة بالاستخدام غير المرخص للصور أو النصوص إلى المحاكم، وتتطور اللوائح بسرعة في هذا المجال.

وأخيرًا، يتطلب التوسع والنشر موارد كثيرة.يتطلب تدريب وتشغيل أنظمة التعلم الآلي واسعة النطاق أجهزة متخصصة، وخبرة في الأنظمة الموزعة، ومراقبة مستمرة، واستهلاكًا كبيرًا للطاقة. حتى بالنسبة للنماذج الأصغر حجمًا، فإن إدارة زمن الاستجابة والتكلفة والموثوقية على نطاق الإنتاج أمر ليس بالهين.

عندما تجمع كل هذه العناصر معًا - الرموز ومجزئات الرموز، والمحولات والانتباه، والمعلمات والسياق، والتكميم والأجهزة، والتدريب والنشر - ستحصل على صورة واضحة لنماذج التعلم الموجه (LLMs) باعتبارها متعلمين أنماط أقوياء بدلاً من كونها أدوات سحرية.باستخدام أداة التجزئة المناسبة، والبنية، واستراتيجية الضغط، وإعداد الأجهزة، يمكنك تشغيل نماذج ذات قدرات مذهلة محليًا، وتخصيصها لمجالك، ودمجها في البحث، والتحليلات، وإنشاء المحتوى، أو سير العمل الحواري، مع مراعاة حدودها المتعلقة بالصدق، والتحيز، والأمان، والقيود القانونية.

نماذج مختلفة من اللغة مع القليل من المفترض
المادة ذات الصلة:
كيفية استضافة نماذج اللغة بميزانية منخفضة
الوظائف ذات الصلة: