OpenAI تطلق نموذج 4o الجديد لتوليد الصور.. تفوق كاسح على عائلة DALL-E

حققت OpenAI قفزة نوعية في مجال إنشاء الصور بالذكاء الاصطناعي من خلال إطلاق نموذجها الجديد GPT-4o.
ويتفوق مُولّد الصور 4o على إمكانيات عائلة نماذج DALL-E، مما يسمح بإنتاج أعمال أكثر واقعية، وتفاصيل أكثر دقة، ودمج نصوص متماسكة، والحفاظ على الاتساق في توليد الاختلافات، بالإضافة إلى إمكانيات مفيدة أخرى.
وقامت الشركة بتفعيل خاصية إنشاء الصور 4o في نموذج GPT-4o لباقات Plus وPro وTeams ، وكذلك في Sora، وهو نظام الذكاء الاصطناعي المُولّد للفيديو.
وأعلنت OpenAI عن إطلاقه قريبًا في واجهة برمجة التطبيقات (API) وباقات Enterprise وEdu.
ويمكن للراغبين في مواصلة استخدام DALL-E لإنشاء أعمالهم بالذكاء الاصطناعي الوصول إلى هذا النموذج من خلال حساب DALL-E GPT مُخصص.
قدرات مُولّد الصور 4o
وطوّرت OpenAI مُولّد الصور 4o مع تركيزها على تعزيز فائدته، فإلى جانب جاذبية الصور، يجب أن تُستخدم أيضًا للتواصل والشرح والإقناع، ولهذا، يجب أن تكون متماسكة وعالية الجودة، وأن تُنظّم المعلومات بوضوح.
وتوضح الشركة في وصفها لمواصفات النموذج: "ندرب نماذجنا على التوزيع المُشترك للصور والنصوص الموجودة على الإنترنت، ونتعلّم ليس فقط كيفية ارتباط الصور باللغة، بل أيضًا كيفية ارتباطها ببعضها البعض، ومع التدريب المُكثّف بعد ذلك، يمتلك النموذج الناتج سلاسة بصرية مُذهلة، قادرة على توليد صور مفيدة ومتسقة ".
أما سهولة استخدام الأداة، فلم تتغير، إذ لا يزال هذا النموذج يعمل بشكل تفاعلي، ما عليك سوى إدخال وصف الصورة التي ترغب في إنشائها أو التعليمات لإنشاء تنويعات، وسيتولى ChatGPT-4o الباقي.
ومع ذلك، قد تلاحظ أن الذكاء الاصطناعي يستغرق وقتًا أطول قليلاً لإنشاء الصور (قد يستغرق الأمر دقيقة واحدة)، ويرجع ذلك إلى أن النموذج يتطلب عملية تفكير أطول لإنشاء أعمال أكثر دقة وتفصيلاً.
تعطيل الاتاحة المجانية للنموذج
ويقول موقع "ذا فيرج"، إن شركة OpenAI أجلت إطلاق مُولّد الصور المُدمج في ChatGPT للمستخدمين المجانيين.
وفي منشور يوم الأربعاء، أقرّ الرئيس التنفيذي سام ألتمان بأن أداة توليد الصور أكثر شعبية مما توقع، مضيفًا أن "طرحها في النسخة المجانية سيتأخر لفترة للأسف".
وأضافت OpenAI مؤخرًا تحديثات على إمكانيات توليد الصور إلى ChatGPT يوم الثلاثاء، مما يسمح للمستخدمين بإنشاء صور مباشرة داخل التطبيق باستخدام نموذج التفكير الخاص بالشركة، GPT-4o.
ومنذ إطلاقه، غمر المستخدمون صفحات التواصل الاجتماعي بصور مُحوّلة إلى صور مُولّدة بأسلوب استوديو جيبلي، وهو اتجاه انخرط فيه حتى ألتمان.
ويأتي GPT-4o مُحسّنًا لعرض النصوص ويستخدم "نهجًا انحداريًا تلقائيًا" لتوليد الصور، مما يعني أنه يُولّد صورة من اليسار إلى اليمين ومن أعلى إلى أسفل بدلاً من توليدها جميعًا في نفس الوقت.
ويتوفر GPT-4o حاليًا لمشتركي ChatGPT Plus وPro وTeam، ولكن ليس من الواضح الآن متى سيصل إلى المستخدمين المجانيين.