«شاومي» تكشف عن روبوت ذكي.. يجمع الرؤية والحركة والفهم اللغوي
دخلت شركة «شاومي»، رسمياً، سباق الروبوتات الكبيرة بإعلانها عن نموذجها الأول Xiaomi-Robotics-0، في خطوة تمثل تحولاً لافتاً في مسار الشركة نحو ما تصفه بـ«الذكاء الفيزيائي».
النموذج الجديد لا يقتصر على معالجة البيانات أو تحليل الصور، بل يجمع بين الرؤية الحاسوبية، وفهم اللغة البشرية، وتنفيذ الحركات على أرض الواقع، مستندًا إلى منظومة تضم 4.7 مليار معلمة.
Xiaomi-Robotics-0.. أول نموذج روبوتات كبير من شاومي
يمثل Xiaomi-Robotics-0 باكورة نماذج شاومي في فئة الروبوتات الكبيرة، حيث يجمع بين الإدراك البصري والفهم اللغوي والقدرة على تنفيذ المهام الحركية بشكل فعلي.
وبحسب الشركة، فقد حقق النموذج نتائج قياسية في الاختبارات الافتراضية والتجارب الواقعية، متفوقًا على عشرات النماذج الأخرى، في إطار سعيها لبناء أنظمة قادرة على التفاعل مع العالم المادي بذكاء متكامل.
آلية العمل.. هندسة تجمع بين الفهم والتنفيذ
يعتمد النموذج على معمارية Mixture-of-Transformers (MoT)، ويتكون من عنصرين رئيسيين يعملان بتناغم:
1- النموذج البصري اللغوي (VLM).. عقل الروبوت
يشكل VLM المركز الإدراكي للنظام، إذ يتولى فهم التعليمات البشرية، حتى تلك التي تحمل قدرًا من الغموض، مثل: "رجاءً طوي المنشفة".
كما يعالج مهام كشف العناصر داخل المشهد، والإجابة عن الأسئلة البصرية، وتنفيذ عمليات التفكير المنطقي المرتبطة بالمحيط.
2- خبير الحركة.. تنفيذ الأوامر بدقة
الشق الحركي يعتمد على Diffusion Transformer (DiT) متعدد الطبقات، والمصمم لإنتاج ما يُعرف بـ"Action Chunks"، أي سلاسل حركية مترابطة وسلسة.
ويتم توليد هذه الحركات باستخدام تقنيات flow-matching، مع الحفاظ على الدقة أثناء التعلم الحركي دون التأثير على القدرات الإدراكية للنموذج.
منظومة تدريب متكاملة.. توازن بين الإدراك والحركة
تم تدريب Xiaomi-Robotics-0 على بيانات متعددة الوسائط والحركة بشكل متزامن، بهدف منع فقدان الفهم أثناء تطوير المهارات الحركية.
ومن بين أبرز التحسينات التقنية:
- Action Proposal: يتيح للنموذج البصري اللغوي التنبؤ بتوزيعات الحركات المحتملة أثناء تحليل الصور.
- تدريب DiT لاحقًا على توليد تسلسل حركي دقيق انطلاقًا من الضوضاء، باستخدام ميزات key-value بدلًا من الرموز اللغوية.
- تقنيات Inference Asynchronous وClean Action Prefix لتقليل زمن الاستجابة وضمان حركة مستقرة.
- استخدام Λ-shaped attention mask للتركيز على المدخلات البصرية الحالية بدلًا من الاعتماد على الحالات السابقة.
نتائج الاختبارات.. تفوق في المحاكاة والواقع
سجل النموذج نتائج قياسية في بيئات المحاكاة مثل LIBERO وCALVIN وSimplerEnv، متجاوزًا نحو 30 نموذجًا آخر.
وفي الاختبارات العملية، جرى تشغيله على روبوت ثنائي الذراعين، حيث أظهر تنسيقًا عاليًا بين الرؤية والحركة في مهام طويلة، مثل طي المناشف وتفكيك المكعبات. كما تعامل بكفاءة مع أجسام صلبة ومرنة دون مشكلات ملحوظة.
وعلى خلاف أنظمة سابقة كانت تفقد بعض قدراتها الإدراكية بعد تعلم المهارات الحركية، حافظ Robotics-0 على توازنه بين الفهم البصري واللغوي والتنفيذ الفيزيائي.