الانحدار باستخدام شجرة القرار من الصفر: النظرية والتطبيق

آخر تحديث: 03/14/2026
نبذة عن الكاتب: ج مصدر تريل
  • تقوم أشجار القرار بنمذجة التنبؤات من خلال عمليات تقسيم متكررة يتم اختيارها لتقليل الشوائب، باستخدام مقاييس مثل جيني أو الإنتروبيا أو التباين.
  • يوجه كسب المعلومات اختيار الميزة والعتبة عند كل عقدة، مما يسمح للأشجار بالتعامل مع كل من الانحدار والتصنيف.
  • تتحكم المعلمات الفائقة مثل max_depth و min_samples_split و min_information_gain في فرط التخصيص وتعقيد الشجرة.
  • يُعد فهم آليات الشجرة المفردة أمرًا ضروريًا قبل الانتقال إلى مجموعات مثل الغابات العشوائية التي تعمل على استقرار الأداء وتعزيزه.

انحدار شجرة القرار من الصفر

يُعدّ الانحدار باستخدام شجرة القرار من الصفر أحد أكثر التمارين إثارة للاهتمام التي يمكنك القيام بها إذا كنت ترغب في فهم كيفية تفكير النماذج القائمة على الأشجار ولماذا تحظى بشعبية كبيرة في مجال التعلم الآلي. بدلاً من التعامل مع الشجرة كصندوق أسود غامض، سترى كيف يتم اختيار كل تقسيم، وكيف يتم قياس الشوائب، وكيف يتم إنتاج التنبؤات العددية عند الأوراق، وذلك لكل من مشاكل الانحدار والتصنيف.

في هذا الدليل، سنستعرض الأفكار الأساسية وراء أشجار القرار، ووظائف التكلفة التي تستخدمها، وكيفية البحث عن أفضل التقسيمات، وكيفية برمجة شجرة أساسية تدعم كلاً من الانحدار والتصنيف، باستخدام مفاهيم أساسية فقط مثل الحلقات والشروط والإحصاءات البسيطة. على طول الطريق سنقارن بين أشجار الانحدار وأشجار التصنيف، ونربط النظرية بالتطبيقات العملية في أدوات مثل بايثون وR (على سبيل المثال مع rpart وtree)، ونضع أشجار القرار بإيجاز داخل مجموعات أكبر مثل الغابات العشوائية.

ما هي شجرة القرار ولماذا هي بديهية للغاية؟

شجرة القرار هي في الأساس سلسلة من الأسئلة بنعم/لا (أو قواعد بسيطة) ترشدك من قرار جذري إلى تنبؤ نهائي في عقدة طرفية. في بيئة التعلم الخاضع للإشراف النموذجية، يكون الهدف هو التنبؤ بمتغير مستهدف Y باستخدام العديد من المتغيرات التنبؤية (الميزات، والمتغيرات المصاحبة)، وتتعلم الشجرة سلسلة من الأسئلة مثل "هل الوزن ≤ 103؟" أو "هل البلد في {الولايات المتحدة، المملكة المتحدة، كندا}؟" والتي تقسم البيانات تدريجياً إلى مجموعات أكثر تجانسًا.

للحصول على بعض الحدس، تخيل أنك تريد التنبؤ بما إذا كان شخص ما يعاني من السمنة باستخدام الطول والوزن فقط، ولديك مجموعة بيانات مصنفة تخبرك من هو المصاب بالسمنة ومن ليس كذلك. قد تكتشف شجرة التصنيف قاعدة مثل "إذا كان الوزن أكبر من 100 كجم، فتوقع السمنة"، لكن هذه القاعدة لن تكون مثالية: فبعض الأشخاص الذين يزيد وزنهم عن 100 كجم لن يكونوا بدينين، وبعضهم ممن يقل وزنهم عن هذا الحد سيكونون كذلك. ثم تستمر الشجرة في إضافة المزيد من الأسئلة (تقسيمات فرعية)، على سبيل المثال حول الطول أو حد وزن مُحسَّن، لـ"ضبط" تلك التوقعات الأولية التقريبية.

كل عقدة داخلية في الشجرة تتوافق مع قاعدة قرار، وكل فرع يتوافق مع نتيجة واحدة لتلك القاعدة، وكل عقدة ورقية تتوافق مع منطقة من فضاء الميزات حيث تكون التنبؤات ثابتة. في التصنيف، تُرجع الورقة تسمية الفئة (أو توزيع الاحتمالات على التسميات)؛ في الانحدار، تُرجع الورقة عادةً متوسط ​​القيم المستهدفة التي تقع في تلك المنطقة.

تتمثل إحدى نقاط القوة الرئيسية لأشجار القرار في أنها تتعامل مع كل من الانحدار والتصنيف بشكل طبيعي، كما أنها سهلة التفسير، وتعمل مع كل من المتنبئات الكمية والنوعية (الفئوية) دون الحاجة إلى معالجة مسبقة مكثفة. لا تحتاج إلى افتراض أي توزيع محدد لميزاتك أو هدفك، مما يجعل الأشجار جذابة للغاية في سيناريوهات العالم الحقيقي حيث يتم انتهاك الافتراضات الخطية الكلاسيكية في كثير من الأحيان.

أشجار التصنيف مقابل أشجار الانحدار

على الرغم من أن بنية أشجار التصنيف والانحدار متشابهة، إلا أن طبيعة متغير الاستجابة Y ودالة التكلفة المستخدمة للتقسيم تختلف بين هذين النوعين. عندما يكون Y كميًا (على سبيل المثال، المبيعات، متوسط ​​العمر المتوقع، استهلاك الوقود)، فإننا نتحدث عن شجرة الانحدار؛ وعندما يكون Y نوعيًا أو تصنيفيًا (على سبيل المثال، الناجي مقابل غير الناجي، البدين مقابل غير البدين)، فإننا نتحدث عن شجرة التصنيف.

في شجرة الانحدار، يكون الهدف المعتاد هو تقسيم مساحة الميزات إلى مناطق حيث يمكن تقريب الاستجابة بثابت، وغالبًا ما يكون متوسط ​​الملاحظات في تلك المنطقة. تتخذ قواعد القرار النموذجية الشكل التالي: "هل xk ≤ c؟"، حيث xk وهي إحدى المتغيرات المساعدة و c هي عتبة؛ تقوم هذه القواعد بتقسيم الفضاء بشكل متكرر إلى مستطيلات فائقة، وتشترك جميع النقاط في نفس المستطيل الفائق في نفس القيمة المتوقعة ŷ.

في شجرة التصنيف، لا تزال التقسيمات هي "الميزة ≤ العتبة؟" أو "الفئة في المجموعة S؟"، ولكن يتم قياس جودة التقسيم من خلال مدى نقاء العقد الفرعية الناتجة من حيث تصنيفات الفئات. عادةً ما يكون التوقع النهائي للأوراق هو الفئة الأكثر شيوعًا داخل تلك العقدة، ويحاول النموذج إنشاء أوراق قريبة قدر الإمكان من احتواء فئة واحدة فقط.

على الرغم من هذه الاختلافات في نوع الهدف، من منظور البرمجة، يمكنك تنفيذ بنية شجرة عامة واحدة وإدخال مقاييس مختلفة للشوائب أو الخسائر اعتمادًا على ما إذا كنت تقوم بالانحدار أو التصنيف. لاحقًا، عندما نحسب كسب المعلومات، سترى أن صيغ التصنيف (القائمة على الإنتروبيا) والانحدار (القائمة على التباين) متوازية في جوهرها.

وظائف عدم النقاء والتكلفة في أشجار القرار

يكمن في صميم أي خوارزمية لشجرة القرار دالة تكلفة تقيّم مدى جودة تقسيم معين في فصل البيانات إلى مجموعات ذات معنى. يتم التعبير عن دالة التكلفة هذه من حيث عدم النقاء: تعتبر العقدة نقية إذا كانت جميع عيناتها تنتمي إلى نفس الفئة (للتصنيف) أو لها نفس القيمة العددية تقريبًا (للانحدار).

عندما تقوم بتحديد تقسيم مرشح على ميزة ما، تنظر الخوارزمية إلى العقد الفرعية التي تنتجها وتسأل: "ما مدى تداخل التصنيفات (أو القيم) في كل عقدة فرعية؟" التقسيم الجيد هو الذي ينتج عنه عقد فرعية أقل نقاءً بكثير من العقدة الأصلية، مما يعني أن البيانات داخل كل عقدة فرعية تكون أكثر تجانسًا فيما يتعلق بالهدف.

في أشجار التصنيف، عادة ما يتم قياس عدم النقاء بمعايير مثل مؤشر جيني أو الإنتروبيا، وكلاهما يحدد مدى احتمالية تصنيف ملاحظة مختارة عشوائيًا في تلك العقدة بشكل خاطئ إذا توقعنا ببساطة الفئة الأكثر شيوعًا. في أشجار الانحدار، يتم قياس عدم النقاء عادةً باستخدام الخطأ التربيعي أو التباين، مما يعكس مدى انتشار القيم المستهدفة داخل العقدة.

مؤشر جيني: قياس عدم النقاء في أشجار التصنيف

يُعد مؤشر جيني أحد أكثر مقاييس عدم التجانس استخدامًا لأشجار التصنيف لأنه سهل الحساب ويعمل بشكل جيد من الناحية العملية. من الناحية المفاهيمية، يقيس هذا الاحتمال احتمال تصنيف ملاحظة مختارة عشوائياً من العقدة بشكل خاطئ إذا تم التنبؤ بتصنيفها وفقاً لتوزيع التصنيفات في تلك العقدة.

إذا كانت العقدة تحتوي على فئات باحتمالات P1، ف2، … ، صnيتم حساب مؤشر جيني على النحو التالي: Gini = 1 − Σ (Pi)². عندما تكون العقدة نقية تمامًا (جميع الملاحظات تنتمي إلى نفس الفئة)، فإن أحد الاحتمالات هو 1 والباقي هو 0، لذا فإن مجموع المربعات هو 1 ومؤشر جيني هو 0، مما يشير إلى النقاء الكامل.

من ناحية أخرى، يصل مؤشر جيني إلى أقصى قيمة له عندما تكون الفئات مختلطة بالتساوي داخل العقدة، على سبيل المثال في مسألة ثنائية مع P1 = ف2 = 0.5، مما يعطي Gini = 1 − (0.5² + 0.5²) = 0.5. في تلك الحالة، يكون التنبؤ بالفئة الأغلبية هو أسوأ ما يمكن أن تحصل عليه لهذا التوزيع لأن العقدة تحتوي على نصف كل فئة.

عند تطبيق معامل جيني في الكود، فإنك عادةً ما تأخذ متجه التصنيف للعقدة، وتحسب تكرار كل فئة، وتحول التكرارات إلى احتمالات، ثم تطبق الصيغة 1 − Σ p². إذا قمت بذلك لعدة تقسيمات مرشحة، يمكنك مقارنة أي تقسيم ينتج أطفالًا بمتوسط ​​جيني أقل، وهو بالضبط ما تحتاجه الشجرة لتحديد أفضل تقسيم.

الإنتروبيا: منظور آخر لشوائب التصنيف

الإنتروبيا هي مقياس بديل للشوائب يستخدم على نطاق واسع في نظرية المعلومات وفي خوارزميات الأشجار المبكرة مثل ID3 و C4.5، وهي تلتقط مقدار العشوائية أو عدم اليقين في توزيع فئة العقدة. بينما يركز معامل جيني على احتمالية التصنيف الخاطئ، فإن معامل الإنتروبيا يحدد "المفاجأة" المرتبطة بملاحظة فئة معينة عندما يكون التوزيع مختلطًا.

بافتراض احتمالات الفئة p1، … ، صc بالنسبة للعقدة S، تُعرَّف إنتروبيتها على النحو التالي: E(S) = − Σ pi log₂(pi). إذا كانت العقدة نقية، فإن أحد الاحتمالات هو 1 وجميع الاحتمالات الأخرى هي 0، مما يجعل المجموع صفرًا (لأن log₂(1) = 0)، وبالتالي فإن الإنتروبيا هي 0، مما يشير إلى عدم وجود شك.

عندما تحتوي العقدة على توزيع منتظم للفئات، يتم تعظيم الإنتروبيا؛ بالنسبة لمسألة ثنائية مع p1 = ص2 = 0.5، الإنتروبيا هي بت واحد، وهي أعلى قيمة ممكنة لفئتين. تتوافق هذه القيمة مع أقصى قدر من عدم اليقين، مما يعني أن العقدة غير نقية قدر الإمكان في ظل هذا التوزيع.

على الرغم من أن جيني والإنتروبيا يستخدمان صيغًا مختلفة ولهما نطاقات عددية مختلفة (جيني بين 0 و 0.5 لفئتين، والإنتروبيا بين 0 و 1)، إلا أنهما يقيسان نفس المفهوم بشكل أساسي، لذلك عادة ما يؤديان إلى أشجار متشابهة جدًا في الممارسة العملية. عندما تقوم بحساب كليهما على نفس العقدة، ستجد أن ارتفاع قيمة جيني يتوافق مع ارتفاع قيمة الإنتروبيا والعكس صحيح، ولهذا السبب تسمح لك العديد من المكتبات باختيار أي منهما دون تغيير الأداء بشكل كبير.

اكتساب المعلومات واختيار أفضل تقسيمات

لاختيار أفضل تقسيم من بين العديد من المرشحين، تستخدم خوارزمية الشجرة مقياسًا يسمى كسب المعلومات، والذي يقيس مقدار انخفاض الشوائب عندما نقسم عقدة إلى أبنائها. بشكل بديهي، يكون للتقسيم مكسب معلوماتي عالٍ إذا كان الأبناء أنقى بكثير من الأصل، مما يعني أن القاعدة نجحت في فصل البيانات إلى مجموعات أكثر جدوى.

بالنسبة لأشجار التصنيف التي تستخدم الإنتروبيا، يتم تعريف كسب المعلومات للتقسيم على أنه IGتصنيف = E(parent) − Σ (|Sطفل| / |Sأصل|) · E(Sطفل). تقوم أولاً بحساب إنتروبيا العقدة الأصلية، ثم تطرح متوسط ​​الإنتروبيا المرجح للعقد الفرعية، حيث تمثل الأوزان أحجامها النسبية.

بالنسبة لأشجار الانحدار، يستخدم مفهوم مماثل التباين أو متوسط ​​مربع الخطأ كمقياس للشوائب، مما يعطي IGتراجع = Var(parent) − Σ (|Sطفل| / |Sأصل|) · Var(Sطفل). في هذا السياق، يعتبر التقسيم الجيد هو الذي يقلل بشكل كبير من تباين القيم المستهدفة داخل كل طفل.

تقوم خوارزمية تدريب الشجرة بتقييم كسب المعلومات هذا لكل تقسيم مرشح محتمل على كل ميزة، ثم تختار التقسيم الذي يحقق أعلى كسب، بشرط أن يتجاوز حدًا أدنى لتجنب إنشاء تحسينات صغيرة وغير مفيدة. ثم تتكرر هذه العملية بشكل متكرر على كل عقدة فرعية حتى يتم الوصول إلى بعض معايير التوقف.

كيفية البحث عن أفضل تقسيم لكل ميزة

يعتمد إيجاد أفضل تقسيم على ميزة واحدة على ما إذا كانت الميزة رقمية أم فئوية، ولكن الفكرة الأساسية هي نفسها دائمًا: تعداد الأقسام المرشحة وحساب كسب المعلومات الخاص بها. بالنسبة للميزات الرقمية، يتم تحديد التقسيم بواسطة عتبة؛ أما بالنسبة للميزات الفئوية، فيتم تحديده عن طريق تجميع المستويات في مجموعات فرعية.

بالنسبة للمتنبئ العددي، تتمثل الاستراتيجية المعتادة في النظر إلى جميع القيم الفريدة التي تأخذها هذه الميزة في العقدة الحالية، وفرزها، ثم النظر في العتبات المرشحة بين القيم المتتالية. لكل عتبة مرشحة c، تقوم بإنشاء مجموعتين (x ≤ c و x > c)، وحساب عدم تجانس كل مجموعة، ثم حساب كسب المعلومات؛ العتبة التي تحقق أعلى كسب هي أفضل تقسيم رقمي لديك على تلك الميزة.

عند التعامل مع المتنبئات الفئوية، تكون مساحة البحث أكثر تعقيدًا لأنه من حيث المبدأ، يمكن لأي مجموعة فرعية من الفئات أن تشكل جانبًا واحدًا من الانقسام، مع وجود المكمل على الجانب الآخر. في خاصية ذات K فئة، توجد العديد من المجموعات الفرعية الممكنة (2K-1 − 1 تقسيمات غير تافهة)، لذلك في الممارسة العملية غالبًا ما تقيد التطبيقات هذا البحث أو تستخدم الطرق الاستدلالية، خاصة عندما تكون K كبيرة.

بمجرد حساب أفضل تقسيم لكل ميزة، تقوم بمقارنة مكاسب المعلومات الخاصة بها وتحديد الميزة والعتبة (أو مجموعة الفئات الفرعية) التي تتوافق مع أقصى مكسب. يصبح هذا التقسيم المختار هو القرار عند العقدة الحالية، ثم تتكرر عملية التدريب على كل طفل مع المجموعة الفرعية المقابلة من الملاحظات.

التحكم في نمو الشجرة باستخدام المعلمات الفائقة

إذا سمحت لشجرة القرار بالنمو دون أي قيود، فستستمر في الانقسام حتى تصبح كل ورقة إما نقية تمامًا أو تحتوي على عدد قليل جدًا من الملاحظات، مما يؤدي دائمًا تقريبًا إلى فرط التخصيص الشديد (overfitting مقابل underfitting). ولتجنب ذلك، يمكنك تعيين مجموعة من المعلمات الفائقة التي تتحكم في عمق وتعقيد الشجرة.

أحد المعلمات الفائقة الشائعة هو max_depth، الذي يحدد الحد الأقصى لعدد المستويات التي يمكن أن تنمو فيها الشجرة من الجذر إلى أي ورقة. إذا تم تعيين max_depth إلى None (أو رقم كبير جدًا)، فيمكن للشجرة أن تستمر في النمو طالما تم استيفاء القيود الأخرى؛ إذا كان صغيرًا، فإن الشجرة تظل ضحلة وأكثر قابلية للتفسير ولكنها قد لا تتناسب بشكل كافٍ.

ومن المعلمات الفائقة الرئيسية الأخرى min_samples_split، والتي تحدد الحد الأدنى لعدد الملاحظات التي يجب أن تحتويها العقدة قبل السماح بتقسيمها. إذا كان لدى العقدة عدد أقل من العينات من هذا الحد، فسيتم تحويلها إلى ورقة، مما يمنع النموذج من مطاردة الضوضاء في مجموعات فرعية صغيرة جدًا من البيانات.

يمكنك أيضًا فرض حد أدنى لكسب المعلومات (min_information_gain) بحيث لا تقوم الخوارزمية بالتقسيم إلا إذا أدى ذلك إلى تحسين ذي مغزى في تقليل الشوائب. وهذا يتجنب إنشاء فروع غير ضرورية بالكاد تغير التوقعات وتزيد من تعقيد بنية الشجرة.

بناء شجرة قرارات من الصفر باستخدام البرمجة

عادةً ما يدور تنفيذ شجرة القرار من الصفر حول مجموعة صغيرة من الوظائف الأساسية التي يتم استدعاؤها بشكل متكرر. بينما تقوم مكتبات مثل scikit-learn أو rpart بكل هذا في الخلفية، فإن كتابة هذه الخطوات بنفسك تجعل المنطق أكثر وضوحًا (منطق البرمجة) ويمنحك تحكماً كاملاً في السلوك.

أولاً، أنت بحاجة إلى روتين يقوم، بالنظر إلى البيانات الحالية في عقدة ما، بتقييم كل ميزة وكل تقسيم مرشح للعثور على التقسيم الذي يحقق أعلى كسب للمعلومات. تقوم هذه الوظيفة بإرجاع الميزة المختارة، وقاعدة التقسيم (العتبة أو مجموعة فرعية من الفئات)، وقيمة الكسب، ومجموعات القناع المنطقي أو الفهرس التي تحدد العينات التي تذهب إلى اليسار وتلك التي تذهب إلى اليمين.

ثانيًا، أنت بحاجة إلى دالة تنبؤ للعقد الطرفية التي تحول مجموعة القيم المستهدفة في تلك العقدة إلى تنبؤ واحد. بالنسبة للانحدار، يكون هذا عادةً متوسط ​​y في تلك العقدة؛ أما بالنسبة للتصنيف، فعادةً ما تأخذ المنوال (الفئة الأكثر تكرارًا)، وربما تقوم بتخزين احتمالات الفئة أيضًا إذا كنت تريد مخرجات احتمالية.

ثالثًا، تقوم بإنشاء دالة تدريب متكررة تتحقق من معايير التوقف، وتبحث عن أفضل تقسيم إذا كان مسموحًا به، ثم تقوم بإنشاء عقد فرعية عن طريق استدعاء نفسها على المجموعات الفرعية اليسرى واليمنى. إذا لم يتم استيفاء الحد الأدنى لحجم العينة أو الحد الأقصى للعمق أو الحد الأدنى للكسب، فإن الدالة تتوقف عن التقسيم وتخزن تنبؤًا للأوراق بدلاً من الفروع الإضافية.

كيف تعمل عملية التنبؤ في شجرة القرار المدربة

بمجرد تدريب شجرتك وتخزين جميع قواعد التقسيم وتوقعات الأوراق، فإن إجراء تنبؤ لملاحظة جديدة هو ببساطة مسألة السير في الشجرة من الجذر إلى ورقة. في كل عقدة داخلية، تقوم بفحص الميزة المطلوبة واختبار ما إذا كانت الملاحظة تفي بشرط العقدة.

إذا كانت قاعدة التقسيم رقمية، فإنك تتحقق مما إذا كانت قيمة الميزة أقل من أو تساوي العتبة؛ وإذا كانت قاعدة التقسيم فئوية، فإنك تتحقق مما إذا كانت الفئة موجودة في مجموعة فرعية معينة. بناءً على النتيجة، تتبع الفرع المناسب (على سبيل المثال، "نعم" إلى اليسار، "لا" إلى اليمين) وتكرر هذه العملية عند العقدة التالية.

تستمر في النزول في الشجرة حتى تصل إلى عقدة بدون أبناء، وهي عبارة عن ورقة تخزن قيمة إخراج ثابتة أو تسمية فئة. بالنسبة لشجرة الانحدار، سيكون التنبؤ رقمًا مثل متوسط ​​العمر المتوقع أو كفاءة استهلاك الوقود؛ أما بالنسبة لشجرة التصنيف، فسيكون الناتج فئة متوقعة مثل "نجا" أو "لم ينج".

إذا قمت باختبار هذا النهج على نفس البيانات التي استخدمتها للتدريب، فسترى غالبًا دقة عالية جدًا للتصنيف (على سبيل المثال، حوالي 85٪ في بعض الأمثلة البسيطة للسمنة أو أمثلة على غرار تيتانيك)، ولكن قد ينخفض ​​هذا الأداء على البيانات غير المرئية إذا كانت شجرتك عميقة جدًا. وهذا هو السبب تحديداً في أهمية التحكم في عمق وحجم الشجرة، ولماذا تم ابتكار مجموعات مثل الغابات العشوائية لتحقيق استقرار تنبؤات الأشجار.

العمل مع أشجار الانحدار عملياً

تعتبر أشجار الانحدار مفيدة بشكل خاص عندما تكون العلاقة بين المتغيرات التنبؤية والاستجابة غير خطية بشكل كبير وتتضمن تفاعلات يصعب نمذجتها باستخدام الانحدار الخطي الكلاسيكي. بدلاً من محاولة ملاءمة معادلة عالمية واحدة، تقوم الشجرة بتقسيم مساحة الميزات إلى مناطق وتلائم نموذجًا ثابتًا بسيطًا داخل كل منطقة.

في لغة R، تسهل الحزم الشائعة مثل rpart و tree بناء أشجار الانحدار باستدعاء دالة واحدة، وتحديد صيغة مثل y ~ x1 + x2 + … + x11. تأثرت هذه الحزم بمنهجية CART الأصلية التي وصفها بريمان وزملاؤه، وهي تنفذ العديد من أفكار التقسيم والتقليم القياسية في النمذجة الحديثة القائمة على الأشجار.

على سبيل المثال، يمكنك استخدام حزمة rpart لنمذجة الاستجابة y بناءً على أحد عشر متغيرًا مشتركًا x1 إلى x11، وتنظيف البيانات من القيم المفقودة، ثم تصور الشجرة الناتجة باستخدام وظائف مساعدة مثل prp من حزمة rpart.plot. تُظهر العقد الطرفية قيمة y المتوقعة لكل منطقة، والتي يمكنك استخدامها مباشرة للملاحظات الجديدة.

بالنظر إلى شجرة الانحدار المدربة، يمكنك إدخال قيم المتغيرات المساعدة الجديدة مثل x9 = 70، x2 = 100 أو x9 = 60، x2 = 150 في دالة التنبؤ للحصول على القيم المقدرة ŷ (على سبيل المثال حوالي 20 أو 28 في مثال استهلاك الوقود). إن مقارنة هذه التوقعات بالقيم المرصودة، على سبيل المثال من خلال الارتباط بين y و ŷ، يمنحك فكرة سريعة عن مدى جودة التقاط الشجرة للنمط الأساسي، حتى عندما تكون مجموعة البيانات صغيرة إلى حد ما.

من الأشجار المفردة إلى الغابات العشوائية

تُعد شجرة القرار الواحدة أداة قوية، ولكنها أيضاً حساسة للغاية لخصائص بيانات التدريب، مما قد يؤدي إلى تباين كبير (التحيز والتباين) والتخصيص الزائد. وللتخفيف من ذلك، تقوم الغابات العشوائية ببناء العديد من الأشجار على عينات البيانات التي تم الحصول عليها عن طريق إعادة التجميع وتجميع تنبؤاتها، مما ينتج عنه نموذج أكثر استقرارًا وعادة ما يكون أكثر دقة.

في الغابة العشوائية، يتم تدريب كل شجرة على عينة بوتستراب، مما يعني أنه يتم سحب مجموعة بيانات جديدة بنفس الحجم من مجموعة التدريب الأصلية مع الإحلال. إن عملية أخذ العينات هذه تجعل كل شجرة ترى مجموعة بيانات مختلفة قليلاً، لذا فإن أخطاءها تكون أقل ارتباطًا ويمكن أن تلغي بعضها البعض عند تجميعها.

بالإضافة إلى ذلك، تُدخل الغابات العشوائية عنصر العشوائية في عملية اختيار الميزات من خلال النظر فقط في مجموعة فرعية عشوائية من المتنبئات عند كل تقسيم بدلاً من جميع المتنبئات. وهذا يقلل من الارتباط بين الأشجار، ويعزز التنوع في الغابة، ويميل إلى تقليل التباين دون زيادة التحيز بشكل كبير.

يُعرف الجمع بين إعادة التجميع وتجميع التنبؤات باسم التجميع، وفي الغابات العشوائية تحصل أيضًا على تقدير داخلي لخطأ النموذج من خلال تقييم كل شجرة على نقاط البيانات التي لم يتم تضمينها في عينة إعادة التجميع الخاصة بها (ما يسمى بالملاحظات خارج الحقيبة). يوفر هذا الخطأ خارج الحقيبة طريقة ملائمة لتقييم الأداء دون الحاجة إلى مجموعة تحقق منفصلة.

على الرغم من أن هذه المقالة تركز على بناء شجرة واحدة من الصفر، إلا أن فهم كيفية عمل هذا المكون الأساسي يجعل من السهل جدًا فهم كيفية بناء مجموعات مثل الغابات العشوائية، وتعزيز التدرج، وغيرها من الطرق القائمة على الأشجار على نفس المبادئ لتحقيق نتائج متطورة في العديد من المشكلات التطبيقية.

بوضع كل شيء معًا، يوضح لك انحدار شجرة القرار من الصفر كيف يمكن لمجموعة بسيطة من القواعد ووظائف التكلفة والتقسيمات المتكررة أن تصمم العلاقات المعقدة، سواء كنت تتوقع نتيجة ثنائية مثل البقاء على قيد الحياة، أو تصنيفًا فئويًا مثل حالة السمنة، أو هدفًا رقميًا مثل متوسط ​​العمر المتوقع أو استهلاك الوقود، ويصبح هذا الفهم العميق أساسًا متينًا لاستخدام تقنيات أكثر تقدمًا تعتمد على الأشجار في الممارسة العملية.

overfitting مقابل underfitting
المادة ذات الصلة:
Overfitting vs Underfitting: دليل كامل بالنصائح والأسباب والحلول
الوظائف ذات الصلة: