«روبوتات جمع البيانات».. ابتكار «ميتا» لتدريب نماذج الذكاء الاصطناعي
أعلنت شركة ميتا عن إطلاق روبوتات برمجية جديدة تهدف إلى جمع البيانات من الإنترنت لتدريب نماذج الذكاء الاصطناعي الخاصة بها، وتطوير المنتجات ذات الصلة.
وتتميز هذه الروبوتات بقدرات تجعل من الصعب على أصحاب المواقع الإلكترونية السيطرة عليها أو منعها من جمع المحتوى الخاص بهم.
وصرحت الشركة بأن الروبوت Meta-External Agent مصمم خصيصًا "لاستخدامات مثل تدريب نماذج الذكاء الاصطناعي أو تحسين المنتجات من خلال فهرسة المحتوى بشكل مباشر".
- تحضيراً لإطلاق إصدار iOS 18.. تحسينات برمجية من أبل على آيفون وآيباد
- أبل تقدم تنازلات جديدة لمستخدمي آيفون في أوروبا.. ضحت بالمتجر والمتصفح
بينما يرتبط الروبوت Meta-External Fetcher بعروض الشركة للمساعدات الذكية، حيث يتولى جمع الروابط لدعم وظائف محددة للمنتجات.
ووفقاً لموقع "Business Insider"، ظهرت هذه الروبوتات الجديدة لأول مرة في يوليو/تموز الماضي، وفقًا لما أظهرته صفحات ميتا المؤرشفة التي قامت شركة "Originality.ai" بتحليلها، وهي شركة ناشئة متخصصة في اكتشاف المحتوى الذي تم إنشاؤه باستخدام الذكاء الاصطناعي.
وفي إطار السباق لبناء أقوى نماذج الذكاء الاصطناعي، تتسابق الشركات الناشئة وعمالقة التكنولوجيا للحصول على بيانات تدريب عالية الجودة.
ويعد أحد هذه الأساليب الأساسية هو إرسال الروبوتات البرمجية إلى مواقع الويب لجمع المحتوى باستخدام تقنية "حصد البيانات" (Scraping)، والتي تعتمدها العديد من الشركات الكبرى، بما في ذلك غوغل و OpenAI وAnthropic، لتدريب نماذجها الذكية.
وإذا كان أصحاب المحتوى يرغبون في منع الروبوتات البرمجية من جمع المحتوى المنشور على صفحات مواقعهم الإلكترونية، فإنهم يعتمدون على قاعدة قديمة تعرف بملف "robots.txt"، وهو عبارة عن مجموعة من الأوامر والإرشادات التي يكتبها أصحاب المواقع لتوضيح ما هو مسموح وما هو محظور على تلك الروبوتات القيام به.
كما يمثل هذا الملف "robots.txt" جزءًا أساسيًا من القواعد غير الرسمية التي تدعم بنية الويب منذ أواخر التسعينيات.
ومع ذلك، فقد تسببت الحاجة الماسة لبيانات تدريب الذكاء الاصطناعي في تقويض هذا النظام، ففي يونيو/حزيران الماضي تبين أن "Open AI" وAnthropic تتجاهل القواعد المذكورة داخل ملف "robots.txt" المتواجدة داخل مواقع الويب.
ويبدو أن ميتا تتبع نهجاً مشابهاً، حيث حذرت الشركة من أن روبوتها الجديد Meta-External Fetcher قد "يتجاوز قواعد ملف robots.txt"، بالإضافة إلى ذلك أن روبوتها Meta-External Agent ينجز وظيفتين مختلفتين، إحداهما جمع بيانات تدريب الذكاء الاصطناعي، والأخرى فهرسة المحتوى على مواقع الويب مما يعقد عملية حظره.
ويرغب أصحاب المواقع في منع شركة ميتا من استخدام بياناتهم لتدريب نماذج الذكاء الاصطناعي، بينما في الوقت نفسه، قد يرحبون بفهرسة مواقعهم لزيادة عدد الزوار.
وبالتالي لجوء ميتا لدمج الوظيفتين "جمع البيانات، وفهرسة المحتوى" في روبوت واحد يجعل من الصعب حظره.
ووفق تقرير "Originality.ai" فإن 1.5% فقط من المواقع الكبرى تمنع الروبوت Meta-External Agent الجديد.
وعلى النقيض من ذلك، كان الروبوت الأقدم لشركة ميتا، "Facebook Bot"، الذي يجمع البيانات منذ سنوات لتدريب نماذج اللغة الكبيرة وتقنيات التعرف على الصوت، قد تم منعه من الوصول إلى حوالي 10% من هذه المواقع الكبرى، بما في ذلك منصات بارزة مثل إكس وياهو حسبما أفادت "Originality.ai".
أما الروبوت الجديد الآخر Meta-ExternalFetcher، فيتم منعه من قبل أقل من 1% من المواقع الكبرى.
وصرح جون يلهام، الرئيس التنفيذي لشركة "Originality.ai"، بأن "الشركات يجب أن توفر القدرة للمواقع على منع استخدام بياناتها في التدريب دون تقليل ظهور محتواها في منتجاتها".
وأشار يلهام إلى أن ميتا لا تحترم القرارات السابقة التي اتخذها أصحاب المواقع لحظر الروبوتات الأقدم.
فعلى سبيل المثال، إذا كان موقع ما قد قام بحظر "Facebook Bot" لمنع استخدام بياناته في تدريب "نماذج اللغة لتقنية التعرف على الصوت"، فمن المرجح أن يرغب أيضاً في حظر الروبوت الجديد، Meta-External Agent، لحماية بياناته من استخدام مماثل في "تدريب نماذج الذكاء الاصطناعي"، وبالتالي كان بديهياً أن يتم تطبيق الحظر تلقائيًا.
وعلق متحدث باسم ميتا على هذه الانتقادات، موضحاً أن الشركة تحاول "تسهيل الأمر على الناشرين لتحديد تفضيلاتهم".
وأضاف في رسالة عبر البريد الإلكتروني إلى موقع Business Insider: "نحن، مثل الشركات الأخرى، ندرب نماذج الذكاء الاصطناعي التوليدي الخاصة بنا على المحتوى المتاح بشكل عام على الإنترنت. نحن ندرك أن بعض الناشرين وأصحاب المواقع يرغبون في الحصول على خيارات عندما يتعلق الأمر بمواقعهم والذكاء الاصطناعي التوليدي".
كما تحدث أيضاً أن ميتا لديها عدة روبوتات لجمع البيانات من الإنترنت، لتجنب "تجميع جميع الاستخدامات تحت وكيل واحد مما يوفر مزيداً من المرونة للناشرين على الويب".