تحريض روبوتات الذكاء الاصطناعي على بعضها.. حيلة لوقف الإجابات الحمقاء
تزداد كفاءة روبوتات الدردشة الداعمة للذكاء الاصطناعي مع مرور الوقت عند استخدامها كأنظمة محادثة مع البشر.
ولكنها لا تزال تعاني مشكلة بحسب تقديرات خبراء، وهي أن غالبية أنظمة الدردشة الذكية حتى الآن تعطي إجابات غير دقيقة أو لا معنى لها، يصفها خبراء باسم "الهلوسة"، بحسب تقرير جديد لـ"واشنطن بوست".
وتقول الصحيفة الأمريكية إن الباحثين توصلوا إلى حل محتمل لهلوسة بعض روبوتات الدردشة الذكية، وهو استخدام برامج دردشة آلية أخرى تكون مدعومة أيضا بالذكاء الاصطناعي، مهمتها اكتشاف الأخطاء التي ارتكبتها برامج الدردشة الأخرى.
وشارك سيباستيان فاركوهار، عالم الكمبيوتر في جامعة أكسفورد، في تأليف دراسة نُشرت في شهر يونيو/حزيران الجاري في مجلة Nature، تفترض أن روبوتات الدردشة مثل ChatGPT أو Gemini من Google يمكن استخدامها للتخلص من أكاذيب الذكاء الاصطناعي، من خلالها يمكن اعتبار روبوتات الذكاء الاصطناعي "شرطة نفسها".
وأوضحت "واشنطن بوست" أن أنظمة الذكاء الاصطناعي تستخدم نماذج لغوية كبيرة يرمز لها بـ LLMs، حيث تستهلك كميات هائلة من النصوص من الإنترنت يمكن استخدامها لمهام مختلفة.
وخلال استخدامها في توليد النصوص بأنماط مختلفة تتعرض أنظمة الدردشة الذكية لتجربة الصواب والخطأ.
ولكن تبقى المشكلة أن هذه النماذج غير قادرة على تصحيح نفسها، كونها روبوتات دردشة، أي لا يمكنها أن تفكر مثل البشر ولا تفهم ما يقولونه بنسبة 100%، لتوفر إجابات دقيقة وصحيحة في كل مرة.
ولاختبار ذلك، طرح فاركوهار وزملاؤه أسئلة على برنامج الدردشة الآلي، لم يتحدد نوعه أو اسمه، ثم استخدموا برنامج دردشة آخر لمراجعة الإجابات بحثا عن أي تناقضات، على غرار الطريقة التي قد تحاول بها الشرطة الإيقاع بالمشتبه به من خلال طرح نفس السؤال عليه مرارا وتكرارا.
وإذا كانت الإجابات لها معاني مختلفة إلى حد كبير فهذا يعني أنها ربما كانت مشوهة وغير دقيقة.
وقال البروفيسور المسؤول عن الدراسة إنه تم طرح مجموعة من الأسئلة التافهة الشائعة على برنامج الدردشة الآلي، بالإضافة إلى مسائل حسابية في الرياضيات من المرحلة الابتدائية.
وقام الباحثون بالتحقق من دقة تقييم روبوت الدردشة المراقب المستخدم بالدراسة من خلال مقارنته بالتقييم البشري على نفس المجموعة من الأسئلة.
ووجدوا أن روبوت الدردشة المسؤول عن تقييم الإجابات، اتفق مع المقيمين البشريين بنسبة 93% على دقة إجابات روبوت الدردشة الخاضع للاختبار، في حين اتفق المُقيمون البشريون مع بعضهم بعضا بنسبة 92% في المسألة نفسها، وهي نسبة قريبة بما يكفي للاطمئنان بأن درجة تقييم روبوتات الدردشة لبعضها يمكن الاعتماد عليها بالفعل بحسب قول فاركوهار.
aXA6IDMuMTM5LjEwOC45OSA= جزيرة ام اند امز