تكشف Apple النقاب عن نموذج الذكاء الاصطناعي الذي يمكنه تحرير الصور بناءً على الأوامر النصية

تكشف Apple النقاب عن نموذج الذكاء الاصطناعي الذي يمكنه تحرير الصور بناءً على الأوامر النصية

لا تعد شركة Apple واحدة من أفضل اللاعبين في لعبة الذكاء الاصطناعي اليوم، لكن نموذج الذكاء الاصطناعي الجديد مفتوح المصدر للشركة لتحرير الصور يُظهر قدرته على المساهمة في هذا المجال. يستخدم نموذج يسمى تحرير الصور الموجهة MLLM (MGIE) نماذج لغة كبيرة متعددة الوسائط (MLLMs) لتفسير الأوامر المستندة إلى النص عند معالجة الصور. بمعنى آخر، تتمتع الأداة بالقدرة على تحرير الصور بناءً على النص الذي يكتبه المستخدم. على الرغم من أنها ليست الأداة الأولى للقيام بذلك، إلا أن “التعليمات البشرية تكون في بعض الأحيان مجردة للغاية بحيث لا تتمكن من التقاط الأنماط الحالية ومتابعتها”. ورقة المشروع (بي دي إف) يقرأ.

قامت الشركة بتطوير MGIE مع باحثين من جامعة كاليفورنيا، سانتا باربرا. يتمتع MLLMs بالقدرة على تحويل المطالبات النصية البسيطة أو الغامضة إلى تعليمات مفصلة وواضحة يمكن لمحرر الصور اتباعها. على سبيل المثال، إذا أراد المستخدم “جعل صورة لبيتزا بيبروني أكثر صحية”، يمكن أن يفسر MLLM ذلك على أنه “إضافة طبقة نباتية” وتحرير الصورة وفقًا لذلك.

صور البيتزا والفهود والكمبيوتر والشخص.

تفاحة

بالإضافة إلى إجراء تغييرات كبيرة على الصور، يمكن لـ MGIE قص الصور وتغيير حجمها وتدويرها، بالإضافة إلى تحسين السطوع والتباين وتوازن الألوان. يمكنه تحرير أجزاء معينة من الصورة، على سبيل المثال، تغيير شعر الشخص وعينيه وملابسه، أو إزالة العناصر الموجودة في الخلفية.

مثل فوز المغامرة ملاحظات، أصدرت شركة أبل النموذج جيثبولكن يمكن لأولئك المهتمين تجربة تجريبي يتم استضافته حاليًا على مساحة Hugging Face. ولم توضح شركة Apple بعد ما إذا كانت تخطط لاستخدام الدروس المستفادة من المشروع كأداة أو ميزة يمكن دمجها في أي من منتجاتها.

By Halim Abdullah

"مهووس البيرة. النينجا الشرير لثقافة البوب. عالم القهوة في الحياة. مدرس محترف للإنترنت. مدرس اللحوم."