تتجه مايكروسوفت نحو الاستقلال في مجال الذكاء الاصطناعي من خلال ثلاثة نماذج أساسية جديدة

آخر تحديث: 04/04/2026
نبذة عن الكاتب: ج مصدر تريل
  • تقدم مايكروسوفت ثلاثة نماذج أساسية للذكاء الاصطناعي داخلية للنسخ الصوتي، وتوليد الصوت، وإنشاء الصور لتقليل الاعتماد على OpenAI.
  • يدعم MAI-Transcribe-1 25 لغة ويعمل بسرعة أكبر بحوالي 2.5 مرة من عرض النسخ السريع الحالي من مايكروسوفت Azure.
  • يستطيع MAI-Voice-1 توليد 60 ثانية من الصوت القابل للتخصيص في حوالي ثانية واحدة، بينما يستهدف MAI-Image-2 توليد الصور والفيديوهات المتقدمة.
  • تتكامل هذه النماذج مع Microsoft Foundry وMAI Playground وTeams وAzure، مع أسعار تنافسية وخارطة طريق نحو نماذج رائدة كبيرة بحلول عام 2027.

نماذج مايكروسوفت التأسيسية الجديدة للذكاء الاصطناعي

تتخذ مايكروسوفت خطوة واضحة نحو استقلالية أكبر في الذكاء الاصطناعي من خلال طرح ثلاثة نماذج أساسية خاصة بها تستهدف النسخ الصوتي، وتوليد الكلام، وإنشاء الصور. تشير هذه الخطوة إلى رغبة الشركة في امتلاك بنية ذكاء اصطناعي أكثر عمقًا ومتعددة الوسائط تتحكم بها بشكل كامل، حتى مع الحفاظ على تحالف تجاري وثيق مع OpenAI.

هذه الأنظمة الجديدة، التي تم تطويرها في إطار مايكروسوفت الذكاء الاصطناعي/MAI الذكاء الفائق تم تصميم الفرق لتتصل مباشرة بـ منتجات مثل Teams وAzure بالإضافة إلى منصات التجارب الداخلية. عمليًا، تضع مايكروسوفت الأسس لاستراتيجية طويلة الأجل حيث تغطي نماذجها الخاصة حصة متزايدة من أعباء العمل اليومية، مع الاحتفاظ بالنماذج الخارجية مثل تلك الخاصة بـ OpenAI للحالات التي تقدم فيها قيمة واضحة ومميزة.

ثلاثة نماذج أساسية من تصميم مايكروسوفت للنسخ الصوتي والصور

تتمحور عملية الإطلاق حول ثلاثة نماذج أساسية: MAI-Transcribe-1 لتحويل الكلام إلى نص، ماي-فويس-1 لتحويل النص إلى كلام و MAI-Image-2 لإنتاج الصور. تشكل هذه العناصر معًا طبقة أولى واضحة للغاية من نظام داخلي. مجموعة الذكاء الاصطناعي متعددة الوسائط التي يمكنها التعامل مع النصوص والصوت والصور داخل بيئة مايكروسوفت.

بدلاً من الاعتماد فقط على النماذج الكبيرة ذات الأغراض العامة، تراهن مايكروسوفت على أنظمة تركز على المهام، وهي أرخص وأسرع بالنسبة لحالات الاستخدام الشائعة في المؤسسات. يُعد هذا النهج ذا أهمية خاصة مع استمرار تزايد عدد مستخدمي Copilot والميزات المدعومة بالذكاء الاصطناعي في Office وTeams وAzure، مع تكاليف تتناسب طرديًا تقريبًا مع استخدام واجهة برمجة التطبيقات (API).

نماذج الأساس تُدرَّب هذه الأنظمة على مجموعات بيانات ضخمة ومتنوعة، ما يسمح بتكييفها لاحقًا مع نطاق واسع من السيناريوهات. ويشمل ذلك تشغيل كل شيء بدءًا من نسخ المكالمات الهاتفية وتلخيص الاجتماعات، وصولًا إلى الأصوات الاصطناعية وأدوات تسهيل الوصول وخطوط إنتاج المحتوى الآلية.

MAI-Transcribe-1: تحويل الكلام إلى نص أسرع ومتعدد اللغات لـ 25 لغة

MAI-Transcribe-1 هو برنامج مايكروسوفت الجديد محرك تحويل الكلام إلى نص وأحد العناصر الأساسية لهذا الإطلاق. يدعم النموذج النسخ في 25 لغة مختلفة وقد تم تقييمها داخلياً على أنها تقريباً أسرع بـ 2.5 مرة من خدمة النسخ السريع الحالية للشركة على منصة Azure، والتي كانت بمثابة نقطة مرجعية في محفظتها الحالية.

هذا التحسن في الأداء مهم لأنه تتأثر أحمال العمل المتعلقة بالنسخ بشكل كبير بزمن الاستجابة.وخاصة في سيناريوهات الوقت الفعلي مثل الترجمة الفورية، ودعم العملاء، والاجتماعات الهجينة. كما أن التغطية اللغوية الأوسع تتوافق مع الانتشار العالمي لشركة مايكروسوفت، مما يسهل على العملاء متعددي الجنسيات توحيد استخدامهم لمزود واحد بدلاً من استخدام أدوات إقليمية متعددة.

من وجهة نظر المنتج، تخطط مايكروسوفت لتوصيل MAI-Transcribe-1 مباشرة في فرق مايكروسوفت لمعالجة نصوص الاجتماعات والترجمة الفورية. ومن المتوقع أن يظهر المحرك نفسه بمرور الوقت في أدوات إنتاجية أخرى، بحيث يلاحظ المستخدمون سرعة أفضل وتكاليف أقل دون أن يلاحظوا بالضرورة تغييرًا في العلامة التجارية..

تم تحديد الأسعار بشكل تنافسي: يبدأ سعر MAI-Transcribe-1 من حوالي 0.36 دولار لكل ساعة من الصوت المعالج، وهو رقم يهدف إلى تقويض العروض المماثلة من كل من جوجل وOpenAI مع الاستمرار في العمل على البنية التحتية السحابية الخاصة بمايكروسوفت.

MAI-Voice-1: تحويل النص إلى كلام فائق السرعة مع أصوات مخصصة

أما فيما يتعلق بتوليد الصوت، ماي-فويس-1 هذا هو نموذج مايكروسوفت الجديد لـ تحويل النص إلى كلاموبحسب الشركة، يمكنها إنتاج ما يقارب 60 ثانية من الصوت في حوالي ثانية واحدة من وقت المعالجة، وهو ما يمثل قفزة ملحوظة لحالات الاستخدام التي تكون فيها سرعة الاستجابة أمراً بالغ الأهمية.

وبعيدًا عن السرعة القصوى، يتمثل أحد الوعود الرئيسية في دعم أصوات مخصصة ومتوافقة مع العلامة التجاريةستتمكن المؤسسات من تحديد أصوات تتناسب مع هويتها أو حالات استخدامها المحددة، بدءًا من خطوط الدعم ووكلاء المحادثة وصولًا إلى المواد التدريبية والبودكاست وميزات تسهيل الوصول. يكتسب هذا المستوى من التحكم أهمية متزايدة مع ازدياد شيوع الكلام الاصطناعي وتزايد متطلبات المستمعين فيما يتعلق بنبرة الصوت ووضوحه.

تستهدف مايكروسوفت بشكل مباشر تقنية MAI-Voice-1 المطورون والشركات التي تبني منتجات تعتمد بشكل كبير على الصوتمراكز الاتصال، والمساعدون داخل التطبيقات، وأدوات تعلم اللغات، ومنصات الوسائط، أو أي خدمة تحتاج إلى سرد صوتي قابل للتطوير. تبدأ الأسعار من حوالي 22 دولارًا لكل مليون حرف، ويهدف هذا النموذج إلى أن يكون مجدياً من الناحية المالية سواء عند الأحجام الصغيرة أو الكبيرة جداً.

من منظور البنية التحتية، يتم تقديم MAI-Voice-1 من خلال واجهات برمجة تطبيقات Azureمايكروسوفت فاوندري و MAI بلاي جراونديُمكّن هذا النظام الفرق من اختبار الأصوات بسرعة ثم الانتقال إلى بيئة الإنتاج دون الحاجة إلى تغيير بيئة العمل. والهدف هو تبسيط المسار الكامل من التجربة إلى النشر ضمن بيئة مايكروسوفت.

نماذج الذكاء الاصطناعي من مايكروسوفت لتحويل الصوت والصور إلى نص

MAI-Image-2: توليد الصور والفيديو مدمج في حزمة مايكروسوفت

النموذج الثالث، MAI-Image-2، يركز على إنشاء الصور (وفي بعض الأوصاف، مقاطع الفيديو) من مطالبات نصيةعلى الرغم من أن الشركة لم تكشف عن كل التفاصيل التقنية، إلا أنها تضع النموذج كنظير مرئي لأنظمة النصوص والصوت الخاصة بها، بهدف أتمتة إنشاء الأصول التسويقية، والصور المرئية للمنتجات، ولوحات القصة، وغيرها من الوسائط.

ومن المثير للاهتمام أن برنامج MAI-Image-2 ظهر لأول مرة بشكل أكثر هدوءًا في ملعب مايأعلنت مايكروسوفت عن بيئة تجريبية للنماذج الكبيرة في منتصف مارس الماضي. ويُضفي الإعلان الحالي الطابع الرسمي على دورها كجزء من مجموعة أوسع. Foundry و Azure النظام البيئي، حيث يمكن للشركات الوصول إليه كمكون أساسي بدلاً من كونه مجرد عرض توضيحي بحثي.

تم تصميم استراتيجية التسعير مرة أخرى للمنافسة: حيث تشير الشركة إلى نقطة دخول تبلغ حوالي 5 دولارات لكل مليون رمز إدخال للنص وحول 33 دولارًا لكل مليون رمز إخراج للصور المُولَّدة. يتم عرض هذه الأرقام على أنها على قدم المساواة مع، أو أقل من، المستويات المماثلة من مقدمي الخدمات المنافسين مع الاستفادة من مجموعة أدوات الأمان والامتثال الخاصة بشركة مايكروسوفت.

تتراوح حالات الاستخدام من سير العمل الإبداعي الآلي وتشمل هذه الخدمات تصميم صور تسويقية مخصصة، بالإضافة إلى النماذج الأولية السريعة لتصميم المنتجات. بالنسبة للعديد من العملاء الذين يستخدمون Azure بشكل قياسي، فإن الميزة الرئيسية هي قدرتهم على تجربة إنشاء الصور دون الحاجة إلى الاستعانة بمورد خارجي إضافي.

التكامل عبر Azure وFoundry وMAI Playground وMicrosoft 365

من أبرز سمات هذا الإطلاق مدى اندماج الطرازات الجديدة بشكل وثيق في منصات مايكروسوفت السحابية والإنتاجية الحاليةيتم طرح الأنظمة الثلاثة جميعها - MAI-Transcribe-1 و MAI-Voice-1 و MAI-Image-2 - من خلال مايكروسوفت فاوندري، بيئة الشركة للوصول إلى نماذج الأساس وتوسيع نطاقها.

يمكن للمطورين البدء بـ ملعب مايحيث تُعرض النماذج نفسها في واجهة تجريبية. ويهدف هذا الإعداد إلى تسهيل تجربة الفرق التي ترغب في اختبار إمكانيات مثل النسخ الصوتي، والأصوات الاصطناعية، أو توليد الصور المرئية، دون الالتزام بالتكامل الكامل فورًا.

أما فيما يتعلق بالمنتجات، فإن مايكروسوفت تشير بالفعل إلى فرق مايكروسوفت بصفتها مستفيدًا مبكرًا، من المقرر أن يقوم برنامج MAI-Transcribe-1 بتشغيل نصوص الاجتماعات والتعليقات التوضيحية، بينما من المتوقع أن يظهر برنامجا MAI-Voice-1 وMAI-Image-2 بمرور الوقت في تطبيقات متنوعة. تجارب Copilot و Microsoft 365، حتى وإن لم يرَ المستخدمون النهائيون علامة تجارية واضحة للطراز.

بالنسبة للشركات، يمثل هذا الوعد مجموعة واحدة متماسكة حيث تتكامل خدمات النسخ الصوتي والمرئي مع نماذج اللغة وخدمات البيانات والتحليلات في Azure. وهذا من شأنه تبسيط عمليات الامتثال والمراجعات الأمنية وإدارة الموردين مقارنةً بالتعامل مع العديد من مزودي الذكاء الاصطناعي الخارجيين.

استراتيجية التسعير والمنافسة مع OpenAI وجوجل

إلى جانب المواصفات التقنية، تولي مايكروسوفت اهتماماً كبيراً لـ القدرة التنافسية التسعيريةتُسوّق الشركة هذه النماذج علنًا كبدائل يمكنها منافسة أو حتى التفوق على العروض المماثلة من أوبن إيه آي وجوجلوخاصة للاستخدام المستمر وبكميات كبيرة.

الأسعار المعلنة – 0.36 دولار لكل ساعة صوتية لـ MAI-Transcribe-1، 22 دولارًا لكل مليون حرف لـ MAI-Voice-1 و 5 دولارات / 33 دولارًا لكل مليون رمز مميز إن بنية MAI-Image-2 ليست مجرد تفاصيل تقنية، بل هي جزء من رسالة أوسع نطاقًا تريد مايكروسوفت أن يُنظر إليها على أنها مزود حلول متكاملة وفعالة من حيث التكلفة للذكاء الاصطناعي التوليدي بدلاً من مجرد إعادة بيع نماذج الشركاء.

في سوقٍ تتزايد فيه المؤسسات التي تُدمج الذكاء الاصطناعي في عملياتها اليومية، يمكن أن تصبح تكلفة الطلب الواحد متغيرًا استراتيجيًا بسرعةمن خلال امتلاك نماذجها الخاصة، تستطيع مايكروسوفت ضبط المفاضلة بين نفقات الحوسبة وتعقيد النموذج وتسعير المستخدم بدلاً من دفع هوامش ربح كبيرة لمقدمي الخدمات الخارجيين.

هناك أيضًا تأثير إشاري: من خلال تسليط الضوء على معاييرها وجداول أسعارها الخاصة، تخبر مايكروسوفت العملاء فعليًا أنهم لم يعودوا بحاجة إلى الاعتماد على نماذج الطرف الثالث لأحمال العمل الأساسية مثل النسخ الصوتي والكلام والصور إذا كانوا ملتزمين بالفعل باستخدام Azure.

مصطفى سليمان ورؤية الذكاء الاصطناعي "المتمحورة حول الإنسان".

تأتي النماذج الثلاثة الجديدة من فرق مصنفة تحت مايكروسوفت الذكاء الاصطناعي/MAI الذكاء الفائق بقيادة مصطفى سليمانسليمان، الذي يرأس الآن قسم الذكاء الاصطناعي في مايكروسوفت، والمعروف بأدواره السابقة في مجال الذكاء الاصطناعي، كان يعرض علنًا رؤية يصفها بأنها "الذكاء الاصطناعي الإنساني" أو الذكاء الاصطناعي الذي يركز على الإنسان.

في اتصالات مايكروسوفت المتعلقة بالإطلاق، يؤكد سليمان أن هذه الطرازات مصممة لـ يعكس هذا كيفية تواصل الناس في الواقع، إعطاء الأولوية الفائدة العملية والسلامةوالهدف، على حد تعبيره، هو إنشاء أنظمة أقل تجريدًا من كونها مشاريع بحثية وأكثر من كونها أدوات تتناسب مع سير العمل اليومي في العمل وفي المنزل.

وقد أشار أيضاً إلى أن الثلاثي الحالي من العارضات هو هذه مجرد بداية لمحفظة استثمارية أوسعتخطط مايكروسوفت لطرح نماذج أساسية إضافية من خلال Foundry ومباشرة داخل المنتجات، وتوسيع قدراتها الداخلية تدريجياً لتشمل ما هو أبعد من الكلام والصور لتغطية المزيد من الوسائط والمهام الأكثر تخصصاً.

تؤكد خارطة الطريق هذه على نية مايكروسوفت في أن يُنظر إليها ليس فقط كمنصة للذكاء الاصطناعي الخاص بالآخرين، ولكن كباني لنماذجها المتقدمة الخاصة التي يمكن أن تتواجد جنبًا إلى جنب مع عروض الشركاء القدامى مثل OpenAI.

علاقة مُعاد ضبطها مع OpenAI وهدف نموذج رائد لعام 2027

أحد أكثر جوانب هذه الاستراتيجية حساسية هو كيفية ارتباطها بـ شراكة مايكروسوفت البارزة مع OpenAIلا تزال الشركتان مرتبطتين ارتباطاً وثيقاً: فقد استثمرت مايكروسوفت أكثر من بـ13 مليار دولار في OpenAI، تستضيف نماذجها على Azure وتدمج أنظمة مثل GPT في منتجات مثل Copilot.

لكن التقارير الأخيرة تشير إلى إعادة التفاوض على العلاقة يمنح ذلك مايكروسوفت مساحة أكبر لإدارة أبحاثها ومنتجاتها الخاصة بالذكاء الاصطناعي بالتوازي. وقد وصف سليمان هذا التحول بأنه تطور طبيعي، وليس قطيعة، بل أقرب إلى قيام الشركة بتصميم بعض رقائقها الخاصة مع الاستمرار في الشراء من موردين خارجيين.

بحسب بلومبيرغ ومصادر أخرى، تهدف مايكروسوفت إلى امتلاك نماذجها الخاصة واسعة النطاق والمتطورة ستكون جاهزة للعمل بحلول عام 2027 تقريباً.تقع الأنظمة المعلن عنها حديثًا في مرحلة مبكرة قليلاً من هذا الطموح: فهي لم تُصنّف بعد كنماذج لغوية عامة الأغراض ومتطورة، بل كـ مكونات متخصصة تقلل الاعتماد على واجهات برمجة التطبيقات الخاصة بالشركاء في أحمال العمل اليومية..

عملياً، هذا يعني أن بإمكان مايكروسوفت الاستمرار في استخدام نماذج OpenAI مثل GPT-5.4 حيثما يكون ذلك مناسباً، مع العمل تدريجياً استبدال نماذجها الخاصة حيثما تُرجّح نسبة التكلفة إلى الأداء أو الاعتبارات الاستراتيجية كفة التكنولوجيا الداخلية، قد يلاحظ المستخدمون ببساطة أن الميزات أصبحت أسرع أو أرخص مع حدوث هذه التحولات في الخلفية.

بالنسبة لسوق الذكاء الاصطناعي الأوسع، يؤكد هذا المسار المزدوج اتجاهاً واضحاً: تسعى شركات التكنولوجيا الكبرى إلى التوازن بين التعاون والاكتفاء الذاتي، باستخدام التحالفات للتحرك بسرعة ولكن بناء قدراتهم الخاصة لتجنب الارتباط بمورد واحد على المدى الطويل.

من خلال هذه النماذج الثلاثة، تُرسّخ مايكروسوفت مكانتها بقوة: فهي تسعى للمنافسة على مستويات متعددة من منظومة الذكاء الاصطناعي - بدءًا من البنية التحتية والأدوات وصولًا إلى النماذج الأساسية نفسها - مع إتاحة المجال لشركاء مثل OpenAI حيثما يُضيفون نقاط قوة فريدة. بالنسبة للعملاء، قد يُترجم ذلك إلى خيارات أوسع، وأسعار تنافسية، وتحوّل تدريجي نحو استخدام تقنيات الذكاء الاصطناعي التي تحمل علامة مايكروسوفت التجارية لدعم المنتجات والخدمات المألوفة.

يتخطى تبعيات نماذج اللغة
المادة ذات الصلة:
تخطي الاعتماد على LLM: الحدود والأنظمة والطموحات
الوظائف ذات الصلة: