- تقوم قواعد بيانات المتجهات بتخزين وفهرسة التضمينات لتمكين البحث السريع عن التشابه الدلالي في البيانات غير المهيكلة.
- إنها تدعم معالجة اللغة الطبيعية و RAG من خلال العمل كطبقة ذاكرة خارجية تجمع بين مسافة المتجهات وفلاتر البيانات الوصفية.
- تغطي المحركات المخصصة وقواعد بيانات SQL التي تدعم المتجهات والمكتبات الخفيفة مثل VDB احتياجات مختلفة من حيث الحجم والتحكم.
- تؤثر خوارزميات الشبكات العصبية الاصطناعية ومقاييس المسافة مثل HNSW و L2 و cosine بشكل كبير على الدقة وزمن الاستجابة واستخدام الموارد.

تستعرض هذه المقالة مشهد قواعد بيانات المتجهات مع التركيز بشكل خاص على الخيارات الخفيفة والمحلية.: ما هي قاعدة بيانات المتجهات في الواقع، وكيف تختلف عن فهرس المتجهات العادي، وكيف تدعم معالجة اللغة الطبيعية و RAG، وما هي المحركات والامتدادات التي تستحق النظر فيها (من Milvus و Qdrant إلى PostgreSQL pgvector والمكتبات المضمنة مثل VDB)، وكيف تؤثر مقاييس المسافة وخوارزميات الشبكات العصبية الاصطناعية على كل من الجودة والأداء.
ما هي قاعدة بيانات المتجهات ولماذا هي مهمة؟
تتفوق قواعد البيانات العلائقية التقليدية في التعامل مع البيانات المهيكلة في صفوف وأعمدة.لكنها تواجه صعوبة عند التعامل مع كميات هائلة من المحتوى غير المنظم. فتحميل ملفات PDF، وسجلات المحادثات، والصور، أو بيانات المستشعرات في مخطط SQL تقليدي، ثم تجهيزها للذكاء الاصطناعي، ليس فقط عملية شاقة، بل هو أيضاً غير فعال من الناحية الحسابية عندما تحتاج إلى تشابه دلالي بدلاً من التطابق التام.
تحل قواعد بيانات المتجهات هذه المشكلة من خلال العمل مباشرة مع المتجهات الكثيفة بدلاً من مجرد الرموز أو الكلمات الرئيسية.بدلاً من السؤال "هل يحتوي هذا الحقل على كلمة هاتف ذكي؟"، فإنك تسأل "ما هي المتجهات المخزنة الأقرب إلى تضمين الاستعلام؟"، وسيعيد النظام العناصر ذات الصلة دلاليًا حتى لو لم تشترك في نفس الصياغة تمامًا.
هذا التحول من مطابقة الكلمات الرئيسية إلى التشابه في فضاء المتجهات هو ما يُمكّن البحث الدلاليتوصيات قوية وتوليد معزز بالاسترجاع (RAG) فعاليمكن للشركات الآن دمج بيانات أعمالها التقليدية مع "الذاكرة الدلالية" في بنية واحدة، إما عبر محركات متجهة مخصصة أو عن طريق تمكين أنواع المتجهات داخل قواعد البيانات الحالية.
المتجهات والتضمينات والمشكلة التي تحلها فعلياً
تُشكّل المتجهات جوهر أي قاعدة بيانات متجهة: وهي عبارة عن قوائم مرتبة من الأرقام تُحدد موقع عنصر ما في فضاء متعدد الأبعاد.يتوافق كل متجه مع كائن - جملة، فقرة، صورة، منتج، ملف تعريف مستخدم - مشفر على طول عشرات أو مئات أو حتى آلاف الأبعاد التي تعلمها نموذج التعلم الآلي.
تُعرّف نماذج التضمين المختلفة فضاءات متجهة وأبعادًا مختلفةقد تُخرج بعض قواعد البيانات متجهات ذات 384 بُعدًا، بينما تُخرج أخرى متجهات ذات 768 بُعدًا أو أكثر؛ ومع ازدياد الأبعاد، يُمكن للتمثيل أن يُجسّد تفاصيل أدق، ولكنه يُصبح أيضًا أكثر صعوبة في الفهرسة بكفاءة. وتتخصص قواعد بيانات المتجهات في التعامل مع هذا الأمر تحديدًا: متجهات الفاصلة العائمة الطويلة على نطاق واسع.
تكمن المشكلة الحقيقية التي يحلونها في جمود البحث التقليدي عن الكلمات الرئيسية في البيانات غير المهيكلةإن البحث التقليدي عن "الهاتف الذكي" سيتجاهل المستندات التي تذكر فقط "الهاتف الخلوي" أو "الجهاز المحمول"؛ يساعد البحث عن الكلمات الرئيسية المتسامحة مع الأخطاء الإملائية قليلاً، ولكنه لا يزال غير قادر على فهم أن "منزل منتصف القرن الحديث مع إضاءة طبيعية" هو أسلوب، وليس عبارة حرفية ستجدها في كل قائمة.
من خلال تخزين التضمينات، تسمح قاعدة بيانات المتجهات بالبحث عن التشابه: فالاستعلامات والمستندات كلاهما متجهات، والتقارب في هذا الفضاء يمثل العلاقة الدلالية.ولهذا السبب يمكن أن يؤدي البحث عن "الهاتف الخلوي" إلى استرجاع المستندات التي تذكر فقط "الهاتف الذكي"؛ حيث تقع تضميناتها في نفس منطقة الفضاء، حتى مع أشكال سطحية مختلفة.
فهرس المتجهات مقابل قاعدة بيانات المتجهات الكاملة
من المفيد الفصل بين فكرة "فهرس المتجهات" وفكرة قاعدة بيانات المتجهات الكاملة.كلاهما يتعامل مع المتجهات، لكنهما يعالجان طبقات مختلفة من المشكلة ويأتيان بمجموعات ميزات مختلفة.
فهرس المتجهات هو بنية بيانات مُحسَّنة للبحث عن أقرب جارتُزوّدها بمجموعة من المتجهات ومتجه استعلام، فتُخبرك بأقرب العناصر المخزنة. تُعدّ مكتبات مثل FAISS ممتازة في هذا المجال؛ فهي تُطبّق خوارزميات فعّالة للبحث عن أقرب جار تقريبي (ANN) والتجميع، لكنها ليست أنظمة قواعد بيانات كاملة.
أما قاعدة البيانات المتجهة، على النقيض من ذلك، فتغلف تلك الفهارس بإمكانيات قاعدة البيانات. مثل تخزين البيانات الوصفية، وإدارة المخططات، والأمان، وإدارة الموارد، والتحكم في التزامن، واستعادة البيانات في حالة الأعطال، والتكامل مع أنظمة البيانات الأوسع. وهو المكان الذي تحتفظ فيه المؤسسات بكل من البيانات المضمنة والكائنات الأصلية (أو مراجعها)، وليس فقط هياكل الفهرسة.
توفر قواعد بيانات المتجهات الجاهزة للاستخدام المؤسسي أيضًا لغات استعلام وواجهات برمجة تطبيقات تجمع بين تشابه المتجهات وفلاتر السمات المهيكلة.قد تستعلم عن "المستندات المشابهة لهذه الفقرة، حيث يكون المشروع = X وتاريخ الإنشاء خلال الثلاثين يومًا الماضية"، وهو أمر يصعب القيام به بشكل نظيف باستخدام مكتبة فهرسة فقط.
أصبحت بعض أنظمة قواعد البيانات العلائقية الحديثة "قواعد بيانات تدعم المتجهات" عن طريق إضافة أنواع المتجهات الأصلية.تدعم قواعد بيانات أوراكل وماي إس كيو إل، على سبيل المثال، الآن المتجهات إلى جانب الحقول الرقمية والنصية التقليدية. يتيح لك ذلك الاحتفاظ بسجلات الأعمال والتضمينات في محرك واحد، مما يجنبك مشاكل التناسق بين مخزن المتجهات المنفصل وقاعدة البيانات الرئيسية.
كيف تدعم قواعد بيانات المتجهات معالجة اللغة الطبيعية والذكاء الاصطناعي التوليدي
يُعد البحث الدلالي أحد أبرز حالات الاستخدامبدلاً من مطابقة الكلمات المفتاحية غير الدقيقة، يتم تضمين استعلام المستخدم وجميع المستندات المفهرسة، ثم استرجاع تلك التي تتطابق متجهاتها بشكل كبير. يستطيع النظام التعامل مع المرادفات وإعادة الصياغة وحتى العبارات غير ذات الصلة بالموضوع ولكنها ذات صلة بالسياق، مما يحسن بشكل كبير من دقة النتائج مقارنةً بالبحث النصي العادي.
كما تعمل هذه الطبقة الدلالية على تقليل تأثير الأخطاء المطبعية واللغة غير الواضحة.لا يتعين على المستخدم صياغة الاستعلام بشكل مثالي؛ طالما أن المعنى العام متشابه، فإن نموذج التضمين يضع الاستعلام بالقرب من المستندات الصحيحة وتقوم قاعدة البيانات المتجهة بعرضها.
تُعد إدارة التضمين الفعالة دورًا رئيسيًا آخرتم تحسين قواعد بيانات المتجهات لتخزين وفهرسة واسترجاع كميات هائلة من تضمينات النصوص التي تولدها النماذج الكبيرة؛ فهي تسمح للتطبيقات بالتعامل مع هذه البيانات على أنها "بنك ذاكرة" سريع وقابل للاستعلام يمكن الوصول إليه في أجزاء من الثانية، بدلاً من كونها مجموعة من الملفات أو المصفوفات المخصصة في عملية تطبيق ما. التضمينات الناتجة عن النماذج الكبيرة غالباً ما تعتمد على أوقات التشغيل والمسرعات لتكون عملية على نطاق واسع.
عمليًا، يظهر هذا في العديد من تطبيقات معالجة اللغة الطبيعيةتستخدم روبوتات الدردشة ومساعدو الذكاء الاصطناعي قواعد بيانات المتجهات للبحث عن الأجزاء ذات الصلة من المحادثات السابقة أو الوثائق؛ وتقوم أنظمة الأسئلة والأجوبة بتحويل الوثائق إلى تضمينات والإجابة على الأسئلة المعقدة من خلال استرجاع المقاطع الصحيحة وتجميعها؛ ويستفيد تحليل المشاعر والنوايا من العلاقات الدلالية الأكثر ثراءً المشفرة في المتجهات؛ وتستنتج محركات التوصية التشابه بين العناصر والمستخدمين بناءً على قرب مساحة التضمين الخاصة بهم.
البحث المتجهي في التوليد المعزز بالاسترجاع (RAG)
يجمع التوليد المعزز بالاسترجاع (RAG) بين البحث المتجهي ونماذج اللغة الكبيرة لمعالجة مشكلات مثل الهلوسة والمعرفة القديمة. تتمتع نماذج التعلم المحدود (LLMs) بحد تدريب ثابت ولا يمكنها رؤية مستنداتك الخاصة إلا إذا قمت بتوفيرها صراحةً في وقت الاستدلال.
تبدأ عملية RAG النموذجية بتقسيم قاعدة المعرفة الخاصة بك إلى أجزاء أصغر – على سبيل المثال، 200-500 كلمة لكل جزء من النص – ثم يتم ترميز كل جزء في متجه تضمين باستخدام نموذج مُختار. تُخزَّن هذه المتجهات، بالإضافة إلى البيانات الوصفية مثل العناوين والوسوم وعناوين URL المصدرية، في قاعدة بيانات متجهات.
عندما يطرح المستخدم سؤالاً، يقوم النظام بتضمين الاستعلام بنفس النموذج ويقوم بإجراء بحث عن التشابه مع التضمينات المخزنة. ويُفترض أن أفضل k جزء متقارب "يتعلق" بالسؤال ويتم استرجاعها في أجزاء من الثانية، بفضل فهارس الشبكة العصبية الاصطناعية لقاعدة البيانات.
ثم يتم إلحاق الأجزاء المسترجعة أو إدخالها بطريقة أخرى في موجه LLMهذا هو جزء "التوسيع": يتلقى النموذج كلاً من طلب المستخدم الأصلي والعديد من الأجزاء ذات الصلة من السياق الخارجي، مما يساعده على ترسيخ إجابته في الحقائق بدلاً من التخمين.
وأخيرًا، يقوم نموذج LLM بتوليد استجابة مشروطة بهذا السياق المسترجع. نظرًا لإمكانية تحديث محتوى قاعدة البيانات باستمرار، فإن RAG يسمح لنماذج التعلم الآلي بالإجابة باستخدام معلومات حديثة ومخصصة للمجال دون إعادة تدريب النموذج نفسه، ويقلل من الهلوسة عن طريق ربط المخرجات بالوثائق الفعلية.
كيف يعمل البحث عن التشابه فعلياً
في جوهرها، تعتمد عملية البحث عن المتجهات على مقارنة متجه الاستعلام بالعديد من المتجهات المخزنة وترتيبها حسب المسافة أو درجة التشابه.يكمن التحدي في القيام بذلك بسرعة ودقة عندما يكون لديك ملايين أو مليارات من المتجهات في أبعاد عالية.
الخطوات الأساسية متسقة عبر المحركاتأولاً، يتم تحويل البيانات إلى متجهات: حيث يتم تمرير النصوص والصور والصوت أو أي محتوى آخر عبر نموذج تضمين لإنتاج متجهات. بعد ذلك، يتم تخزين هذه المتجهات في قاعدة البيانات، غالباً مع المعرفات والبيانات الوصفية، ويتم بناء فهرس واحد أو أكثر من فهارس الشبكات العصبية الاصطناعية عليها.
في وقت الاستعلام، يتم أيضًا تضمين مدخلات المستخدم في متجهثم تستخدم قاعدة البيانات الفهرس للعثور على أقرب الجيران التقريبيين فيما يتعلق بمقياس مختار - تشابه جيب التمام، المسافة الإقليدية، الضرب الداخلي أو غيرها - وتعيد أفضل التطابقات جنبًا إلى جنب مع درجات التشابه الخاصة بها.
عادةً ما يتم ترتيب النتائج حسب درجة التشابه بحيث تظهر المتجهات الأقرب أولاًتدعم العديد من محركات البحث أيضًا الاستعلامات الهجينة، حيث يمكنك التصفية حسب البيانات الوصفية (على سبيل المثال نطاق السعر والموقع والفئة) مع تحسين تشابه المتجهات في نفس الوقت، مما يمنحك نتائج أكثر وعيًا بالأعمال.
ولتحقيق كل هذا بسرعة وعلى نطاق واسع، تعتمد قواعد بيانات المتجهات الحديثة على خوارزميات الجوار الأقرب التقريبية.إنهم يستبدلون جزءًا ضئيلاً من الاستدعاء بتحسينات هائلة في السرعة واستخدام الذاكرة، وهو أمر مقبول لمعظم تطبيقات الذكاء الاصطناعي في العالم الحقيقي.
خوارزميات الشبكات العصبية الاصطناعية الرئيسية: HNSW و LSH وقياس كمية المنتج
تُعد خوارزمية العالم الصغير الهرمي القابل للتنقل (HNSW) واحدة من أكثر خوارزميات الشبكات العصبية الاصطناعية استخدامًا في قواعد بيانات المتجهات.. يقوم بتنظيم المتجهات في طبقات متعددة من الرسم البياني: الطبقات العليا تحتوي على عدد قليل من العقد وروابط طويلة المدى، بينما تصبح الطبقات السفلية أكثر كثافة، مع اتصال جميع العقد في الطبقة السفلية.
أثناء البحث، يبدأ HNSW من نقطة دخول في الطبقة العليا ويتجه بجشع نحو الجيران الأقرب.وتنتقل هذه البنية البيانية متعددة الطبقات إلى الطبقات الأدنى مع تحسين البحث. وتُحقق هذه البنية توازناً فعالاً بين الاسترجاع وزمن الاستجابة، ولهذا السبب تُشغّل تقنية HNSW محركات بحث مثل Milvus وQdrant وغيرها.
تعتمد تقنية التجزئة الحساسة للموقع (LSH) على نهج مختلف، حيث تستخدم دوال التجزئة التي تربط المتجهات المتشابهة بنفس المجموعات باحتمالية عالية.على عكس التجزئة التقليدية التي تحاول تجنب التصادمات، فإن LSH تستغلها للعناصر المتشابهة. يتم إنشاء جداول تجزئة متعددة بحيث لا يحتاج كل استعلام إلا إلى فحص المرشحين من المجموعات المتطابقة بدلاً من مجموعة البيانات الكاملة.
يؤدي هذا بشكل فعال إلى تقليل الأبعاد مع الحفاظ على بنية الجوار بطريقة احتمالية.يمكن أن يكون LSH جذابًا للغاية للبيانات عالية الأبعاد عندما تحتاج إلى توليد مرشحين سريع للغاية ويمكنك تحمل النتائج التقريبية.
تركز تقنية التكميم بالمنتجات (PQ) على ضغط المتجهات لتوفير الذاكرة وتسريع حسابات المسافة.. يقوم بتقسيم كل متجه عالي الأبعاد إلى عدة متجهات فرعية، ثم يقوم بتكميم كل فضاء فرعي على حدة ويخزن فقط معرفات أقرب المراكز، مما يشكل رمزًا قصيرًا.
يمكن لهذا الضغط أن يقلل من استخدام الذاكرة بأكثر من 90% مع الحفاظ على إمكانية تقدير المسافة.على الرغم من أن PQ يؤدي إلى فقدان البيانات وقد يقلل من دقة البحث قليلاً، إلا أنه قوي للغاية بالنسبة للمجموعات الضخمة حيث تكون ذاكرة الوصول العشوائي هي عنق الزجاجة الرئيسي، وهو عنصر أساسي في أدوات مثل FAISS وبعض قواعد البيانات المتجهة.
مقاييس المسافة: المسافة الإقليدية مقابل المسافة الجيبية وما شابهها
تعتمد جودة بحثك عن المتجهات بشكل كبير على مقياس المسافة أو التشابه الذي تختاره. اثنان من أكثر الخيارات شيوعًا هما المسافة الإقليدية (L2) وتشابه جيب التمام (أو مكملها، مسافة جيب التمام).
تقيس المسافة الإقليدية المسافة في خط مستقيم بين نقطتين في فضاء ذي أبعاد nبالنسبة للمتجهين P و Q، فإنّ المسافة هي الجذر التربيعي لمجموع مربعات فروق الإحداثيات. المسافة الأقصر تعني تشابهاً أكبر، ويتراوح نطاقها من 0 (متجهان متطابقان) إلى ما لا نهاية.
هذا المقياس حساس للحجمإذا كان أحد المتجهين أطول بكثير من الآخر - على سبيل المثال، لتمثيل مستند أطول أو قيم سمات أكبر - فإن المسافة الإقليدية ستعكس ذلك، حتى لو كان كلا المتجهين يشيران تقريبًا في نفس الاتجاه. وهي فعالة عندما يحمل المقياس المطلق دلالةً ما، مثل الإحداثيات الفيزيائية أو السمات الرقمية المتصلة حيث يكون الحجم مهمًا.
أما تشابه جيب التمام، في المقابل، فينظر إلى الزاوية بين متجهين، وليس طولهما.هو حاصل الضرب النقطي مقسومًا على حاصل ضرب معايير المتجهات. تستخدم العديد من الأنظمة العملية مسافة جيب التمام = 1 - تشابه جيب التمام، حيث يعني الصفر اتجاهًا متطابقًا، وتشير القيم الأكبر إلى اختلاف أكبر.
لأنها تتجاهل المقدار، فإن تشابه جيب التمام مثالي عندما يشفر التوجيه الدلالاتفي تطبيقات النصوص، يجب اعتبار مستندين حول نفس الموضوع - أحدهما قصير والآخر طويل - متشابهين للغاية؛ جيب التمام يجعل ذلك يحدث، في حين أن المسافة الإقليدية قد تعاقب المستند الأطول لمجرد احتوائه على عدد أكبر من الكلمات.
في الفضاءات عالية الأبعاد والمتفرقة التي تميز معالجة اللغة الطبيعية، يميل تشابه جيب التمام إلى أن يكون أكثر قوة من المسافة الإقليدية.تُؤدي "لعنة الأبعاد" إلى تشابه جميع المسافات الإقليدية في الأبعاد العالية جدًا، مما قد يُقلل من قدرتها على التمييز. تعمل دالة جيب التمام على المتجهات المُعَيَّرة، وغالبًا ما تُنتج ترتيبًا أكثر دلالةً للتشابه في تمثيلات النصوص.
إن اختيار المقياس يتعلق في النهاية بما تريد أن تعنيه "التشابه" في مجال عملكإذا كان المقياس مهمًا - على سبيل المثال، الكشف عن الحالات الشاذة بناءً على مقدار الانحراف - فقد يكون المقياس الإقليدي مناسبًا. أما إذا كانت الصلة الموضوعية أو التوافق الاتجاهي أهم من الطول، فإن جيب التمام هو الأنسب عادةً. كما توفر بعض قواعد البيانات الضرب الداخلي كمقياس، وهو يرتبط ارتباطًا وثيقًا بجيب التمام عند تطبيع المتجهات.
قواعد بيانات المتجهات الشائعة والأنظمة التي تدعم المتجهات
لقد شهد نظام خيارات تخزين البيانات المتجهة نموًا هائلاً، بدءًا من خدمات الحوسبة السحابية المُدارة بالكامل وصولًا إلى محركات المصادر المفتوحة ذاتية الاستضافة وحلول المكتبات.يعتمد الخيار الصحيح على حجم مشروعك وميزانيتك وقيود التشغيل ومدى رغبتك في التكامل مع البنية التحتية الحالية للبيانات.
يتم بناء قواعد بيانات المتجهات المخصصة من الصفر لإجراء بحث عالي الإنتاجية عن التشابهوهي عادةً ما تدعم مؤشرات الشبكات العصبية الاصطناعية المتعددة، ومخططات الضغط المتطورة، وتصفية البيانات الوصفية الغنية، والتجميع والتحويل التلقائي على مستوى الإنتاج.
يُعدّ Milvus مثالًا بارزًا على قاعدة بيانات متجهة قوية مفتوحة المصدر مصممة لأحمال العمل واسعة النطاق.. يستهدف التعلم الآلي والتعلم العميق وأنظمة البحث عن التشابه والتوصية، ويدعم تسريع وحدة معالجة الرسومات والاستعلامات الموزعة ومجموعة متنوعة من طرق الفهرسة مثل IVF وHNSW وPQ.
تتيح لك هذه الإمكانية ضبط التوازن بين الاستدعاء وزمن الاستجابة وحجم التخزين وفقًا لاحتياجاتك.. Milvus مناسب تمامًا للمؤسسات التي لديها مليارات من المتجهات والمحتوى متعدد اللغات ومتطلبات الأداء الصارمة، ويتكامل بسلاسة مع منصات البيانات المعقدة.
محركات أخرى متخصصة تشغل مجالات مختلفة قليلاًتركز Pinecone على عمليات النشر السحابية المُدارة بالكامل مع اتفاقيات مستوى خدمة صارمة وقدرات قوية للبيانات الوصفية؛ وتقدم Weaviate محركًا مفتوح المصدر مع واجهات برمجة تطبيقات GraphQL، ومُحولات متجهات مدمجة، وبحث هجين يجمع بين الكلمات الرئيسية والمتجهات؛ وتوفر Qdrant خدمة بحث متجهات سريعة مفتوحة المصدر مع أساليب الشبكات العصبية الاصطناعية المتقدمة وفلترة مرنة؛ وتستهدف Chroma حالات الاستخدام الأبسط والتجريب مع تجربة مطور سهلة؛ وتتفوق Vespa في البحث والتصنيف الهجين الذي يمزج بين الحقول المهيكلة والنصوص والمتجهات؛ وتركز Deep Lake على مجموعات البيانات متعددة الوسائط مثل الصور والفيديو حيث يُعد التكامل الوثيق مع أطر التعلم الآلي أمرًا أساسيًا.
في الوقت نفسه، بدأت قواعد البيانات ذات الأغراض العامة في اعتماد ميزات المتجهات بدلاً من التخلي عن هذا المجال تمامًا.بالنسبة للمؤسسات التي استثمرت بالفعل في SQL أو مخازن المستندات، يمكن أن تكون هذه طريقة عملية لإضافة البحث الدلالي دون إنشاء نظام منفصل.
يُعدّ استخدام PostgreSQL مع إضافة pgvector أحد أكثر المسارات شيوعًا هنا.. يقدم Pgvector نوع VECTOR الذي يخزن المتجهات ذات الأبعاد الثابتة مباشرة في جداول Postgres ويعرض عوامل التشابه للمسافة الإقليدية والضرب الداخلي ومسافة جيب التمام.
هذا يعني أنه يمكنك إنشاء جدول مثل embeddings(id SERIAL PRIMARY KEY, vector VECTOR(768))قم بفهرسة البيانات، ثم نفّذ استعلامات من النوع "أعطني أقرب 5 متجهات مرتبة حسب مسافة L2"، كل ذلك بلغة SQL القياسية. يدعم هذا الامتداد الفهارس للأبعاد العالية نسبيًا ويتكامل بسلاسة مع أطر عمل مثل LangChain.
تتمثل الميزة الكبيرة لـ pgvector في البساطة والدمج.تُخزَّن بيانات معاملاتك وجداول التحليلات والتضمينات جميعها في محرك واحد، مع نظام نسخ احتياطي واحد وبيئة أمان موحدة. لكن في المقابل، فإن Postgres غير مصمم خصيصًا لأحمال العمل الضخمة التي تصل إلى مليارات المتجهات، لذا في حالات التوسع الهائل أو متطلبات زمن الاستجابة المنخفضة للغاية، ستتفوق قاعدة بيانات متجهات مخصصة عليه بشكل عام.
يمكن أيضًا تحويل Elasticsearch و OpenSearch إلى أنظمة واعية بالمتجهات عبر إضافات k-NN. إذا كان فريقك يُشغّل بالفعل مجموعة بحث للسجلات أو النصوص الكاملة، فقد يكون تفعيل حقول المتجهات كافيًا لإنشاء نموذج أولي للبحث الدلالي دون الحاجة إلى إعادة تصميم البنية. وقد انضمت MongoDB إلى هذا التوجه أيضًا، حيث دمجت البحث المتجهي في نظامها البيئي الموجه نحو المستندات لحالات الاستخدام الأخف وزنًا.
خيارات مدمجة وخفيفة الوزن: سيناريوهات VDB والسيناريوهات المحلية
لا يحتاج كل مشروع (أو يستطيع تحمل تكلفة) قاعدة بيانات متجهة موزعة على مستوى المؤسساتبالنسبة للعديد من المؤسسين والفرق التي تقوم ببناء الحد الأدنى من المنتجات القابلة للتطبيق، أو أدوات البحث، أو التطبيقات على الأجهزة، فإن المكتبة المدمجة خفيفة الوزن تعتبر أكثر جاذبية بكثير.
يُعد VDB مثالاً على هذا النوع من الحلول الخفيفة: مكتبة C تحتوي على ملفات رأسية فقط، وتُنفذ وظائف البحث الأساسية في المتجهات.يتم شحنها بموجب ترخيص Apache 2.0 ويمكن وضعها مباشرة في تطبيقات C أو C++ بدون تبعيات غريبة باستثناء pthreads الاختيارية للتعددية.
تغطي مجموعة الميزات الأساسية ما تحتاجه معظم المنتجات في مراحلها المبكرةيدعم VDB مقاييس تشابه متعددة (جيب التمام، المسافة الإقليدية، الضرب الداخلي)، والبحث متعدد الخيوط لاستغلال وحدات المعالجة المركزية متعددة النوى، والاستمرارية الأساسية بحيث يمكنك حفظ وإعادة تحميل الفهارس من القرص، وروابط بايثون الرسمية بحيث يمكنك دمجها في حزمة الذكاء الاصطناعي النموذجية.
ولأنها تعتمد على رأس الصفحة فقط، فإن التكامل بسيط للغاية.: قم بتضمين الرؤوس في مشروعك، وقم بالتجميع، وقم بإنشاء تضمينات باستخدام النموذج المفضل لديك (OpenAI، Cohere، Sentence Transformers، إلخ)، وقم بدفعها إلى VDB مع المعرفات أو البيانات الوصفية المرتبطة بها، واستعلم عن أقرب k جار عند خدمة الطلبات.
يتوافق هذا التصميم بشكل ممتاز مع عمليات النشر المحلية أو الطرفيةإذا كنت تُنشئ تطبيقًا على غرار LangChain + ChatGPT وترغب في إبقاء كل شيء خلف جدار الحماية الخاص بك، فإن المكتبة المُضمّنة تُجنّبك الاعتماد على جهات خارجية والتقيّد بمورّد واحد. بالنسبة لأجهزة إنترنت الأشياء أو الأجهزة الطرفية حيث يكون زمن استجابة السحابة غير مقبول، فإن تضمين مخزن المتجهات في ملفك التنفيذي يُعدّ ميزة كبيرة.
بالطبع، هناك بعض المقايضات: فـ VDB لا تحاول استبدال قاعدة بيانات المؤسسة الكاملةيعتمد هذا الأسلوب على البحث الدقيق (الشامل) بدلاً من استخدام رسوم بيانية متطورة للشبكات العصبية الاصطناعية أو التكميم، لذا يتناسب وقت الاستعلام طرديًا مع حجم مجموعة البيانات. بالنسبة لعشرات أو حتى بضع مئات الآلاف من المتجهات، يكون هذا مقبولًا في أغلب الأحيان، خاصةً مع تعدد الخيوط؛ أما بالنسبة لعشرات الملايين، فمن المرجح أن تواجه حدودًا ما لم تقم بتقسيم البيانات أو إضافة طبقة فهرسة خاصة بك.
البحث الهجين في العالم الحقيقي: دمج المتجهات والبيانات الوصفية
عملياً، تجمع جميع حالات الاستخدام الإنتاجية تقريباً بين تشابه المتجهات وفلاتر صارمة على السمات المهيكلة.نادراً ما يرغب المستخدمون في "الشيء الأكثر تشابهاً في المجموعة بأكملها"؛ إنهم يريدون "شيئاً مشابهاً، ولكن مع مراعاة هذه القيود أيضاً".
تخيل تطبيقًا للبحث عن العقارات حيث يصف المستخدمون شعورهم تجاه المنزل – "تصميم عصري من منتصف القرن مع إضاءة طبيعية وفيرة" – مع اشتراط قيود صارمة مثل "3 غرف نوم" و"أقل من 800,000 دولار" و"في المنطقة أ". سيُظهر بحث متجهي بسيط فيلا رائعة من منتصف القرن بقيمة مليوني دولار في منطقة مدرسية خاطئة؛ ولن تفهم فلاتر SQL البسيطة استعلام النمط أبدًا.
توضح محركات مثل AlloyDB لـ PostgreSQL كيفية معالجة هذا الأمر باستخدام التصفية المضمنة.يجمع AlloyDB بين توافق Postgres مع البنية التحتية القابلة للتوسع من Google، ويدمج pgvector كامتداد من الدرجة الأولى، ويعززه بفهرس متجه قائم على ScaNN للبحث السريع عن التشابه.
تتيح خاصية التصفية المضمنة تطبيق فهرس المتجهات وفلاتر بيانات SQL الوصفية في عملية واحدة.بدلاً من إجراء بحث متجهي، ثم تصفية الصفوف غير المطابقة بعد ذلك، يقوم AlloyDB بفحص القيود الرقمية والفئوية أثناء اجتيازه لفهرس المتجهات، مما يتجنب العمل الضائع وعقوبات زمن الاستجابة.
والنتيجة النهائية هي بحث هجين يعرض منازل تتوافق مع كل من التفضيلات الجمالية والفلاتر الصارمة في غضون أجزاء من الثانية. هذا النمط ينطبق بشكل عام على التجارة الإلكترونية (الأسلوب + السعر + المخزون)، واكتشاف المحتوى (الموضوع + اللغة + المنطقة)، وأي مجال بشكل أساسي حيث يجب أن تتعايش "الأجواء" مع قواعد العمل الصارمة.
من عمليات التضمين إلى تطبيقات الإنتاج
بمجرد اختيارك لأسلوب التخزين، يصبح التدفق عالي المستوى لبناء الميزات القائمة على المتجهات متسقًا إلى حد معقول.سواء كنت تستخدم Milvus أو Qdrant أو PostgreSQL + pgvector أو Elasticsearch k‑NN أو مكتبة خفيفة الوزن مثل VDB.
أولاً، تقوم بإنشاء تمثيلات مضمنة لمجموعة النصوص الخاصة بكبالنسبة للنصوص، قد تشمل الوثائق، وقواعد المعرفة، والتذاكر، ورسائل البريد الإلكتروني، وسجلات المحادثات؛ أما بالنسبة للصور والبيانات متعددة الوسائط، فيمكنك استخدام نماذج الرؤية أو النماذج متعددة الوسائط المناسبة. يصبح كل عنصر متجهًا بالإضافة إلى أي بيانات وصفية تهمك.
بعد ذلك، تقوم بتخزين التضمينات في مخزن المتجهات المختار مع المعرفات والبيانات الوصفيةفي قاعدة بيانات المتجهات، يعني هذا عادةً إنشاء مجموعة أو جدول يحتوي على حقول المتجهات والبيانات الوصفية؛ في VDB، قد يكون فهرسًا في الذاكرة مدعومًا بلقطات على القرص.
عند إجراء الاستعلام، تقوم بتضمين مدخلات المستخدم مع نفس النموذج وإجراء بحث عن التشابهتقوم قاعدة البيانات بإرجاع أفضل k متجهات متشابهة، ويمكنك البحث عن العناصر الأساسية (المستندات، المنتجات، الصور) باستخدام معرفاتها أو حمولاتها المخزنة.
بالنسبة لـ RAG، يمكنك تمرير المحتوى المسترجع كسياق إضافي إلى نموذج LLM الخاص بكفي أنظمة التوصية، يُستخدم الجيران مباشرةً كمرشحين للترتيب. أما في التحليلات أو كشف الحالات الشاذة، فيمكن تجميع المسافات والجيران لفهم الأنماط والقيم المتطرفة.
كما تسهل قواعد البيانات المتجهة عملية تطبيق نماذج التضمين بطريقة فعالة.بدلاً من التعامل اليدوي مع الملفات أو المصفوفات المخصصة، ستحصل على إدارة موارد فعّالة، وخيارات لتوسيع النطاق، وضوابط أمان، ولغات استعلام تُمكّنك من التعبير عن استعلامات التشابه والتصفية المعقدة بوضوح. تشمل هذه الجوانب التشغيلية المراقبة والتتبع والحوكمة لأنظمة إدارة التعلم الخطي (LLMs) والمتجهات المستخدمة في الإنتاج، كما هو موضح في طبقات من إمكانية مراقبة الذكاء الاصطناعي.
عند دمجها مع الذكاء الاصطناعي التوليدي، تُمكّن هذه المجموعة من تقديم تجارب تبدو شخصية، تستند إلى بياناتك الخاصة، وقادرة على التطور مع نمو قاعدة بياناتك.سواء اخترت قاعدة بيانات موزعة ثقيلة الوزن أو مكتبة محلية خفيفة الوزن، فإن الأجزاء المفاهيمية - التضمينات، ومقاييس التشابه، والشبكات العصبية الاصطناعية أو البحث الدقيق، وفلاتر البيانات الوصفية - تظل كما هي وتشكل العمود الفقري لتطبيقات الذكاء الاصطناعي الحديثة.
مع ازدياد أنظمة الذكاء الاصطناعي تفاعليةً وتعدد الوسائط واحتياجها للسياق، سيتعمق دور قواعد بيانات المتجهات كطبقة ذاكرة دلالية.إن فهم كيفية تخزين المتجهات وفهرستها ومقارنتها أصبح بسرعة مهارة أساسية لأي شخص يقوم ببناء تطبيقات جادة باستخدام نماذج اللغة والرؤية.