برنامج تعليمي ومقارنة لإنشاء الصور بالذكاء الاصطناعي: Dall-e VS Stable Diffusion VS Canva (نص إلى صورة)

مع شعبية وسائل الإعلام الحالية شات جي بي تي هذه فرصة للحديث عنها أيضًا لوح، ذكاء اصطناعي آخر صممه أيضًا افتح منظمة العفو الدولية ! وبشكل أكثر عمومية ، أنظمة الذكاء الاصطناعي المولدة للصور. حيث يكون ChatGPT قادرًا على إنشاء نص مكتوب بسهولة مربكة ، فقد تم تدريب DALL-E وأمثاله على إنشاء صور من طلب مكتوب بسيط من المستخدم.

دعنا نلقي نظرة على كيفية عملها ، وقدراتها ، ولكن أيضًا حدودها مع هذه المقالة المقارنة عن أنظمة الذكاء الاصطناعي لإنشاء الصور.

لكن بالمناسبة ، كيف يعمل الذكاء الاصطناعي؟

سؤال جيد جدًا قد يكون من المثير للاهتمام العودة إليه بسرعة ، خاصة وأننا لم نتطرق إليه في مقالتنا السابقة حول ChatGPT. عندما تسمع "الذكاء الاصطناعي" ، من الصعب ألا تفكر في هذه الأنواع من الروبوتات الشبيهة بالبشر كما رأيناها في الأفلام. هذا ما يولده الذكاء الاصطناعي بأنفسهم عندما يُطلب منهم صورة مطابقة للبحث عن هذه الكلمات الرئيسية ، مثل الصورة التمهيدية لهذه المقالة.

*هذا المشهد غير موجود ، إنه اصطناعي 100٪ تم إنشاؤه بواسطة الذكاء الاصطناعي*

ومع ذلك ، في الواقع ، لا يوجد غلاف مادي للعديد من أنظمة الذكاء الاصطناعي الحالية. في الواقع ، في معظم الأوقات ، تكون برامج الكمبيوتر القائمة على خوارزميات محددة هي التي تم تدريبها من قبل البشر لأداء مهام معينة أكثر أو أقل تعقيدًا.

يعد إنشاء الصور مهمة يمكن تعيينها لواحد (أو أكثر) من أنظمة الذكاء الاصطناعي! لمعرفة المزيد عن طرق إنشاء الصور بالذكاء الاصطناعي ، لا تتردد في مشاهدة الفيديو التالي:

دعونا ننشئ صورنا الأولى بالذكاء الاصطناعي

للقيام بذلك ، لا يمكن أن يكون هناك شيء أبسط من النظرة الأولى ، لأن كل ما عليك فعله هو أن تصف نصيًا للذكاء الاصطناعي الصورة التي تريد الحصول عليها. في هذه المقالة قررنا مقارنة الصور التي قدمتها ثلاثة مولدات للذكاء الاصطناعي:

لوح
انتشار مستقر
Canva (نص إلى صورة)

بالطبع ، هناك أشياء أخرى يجب ألا تتردد في اختبارها أيضًا. هنا واحد قائمة غير حصرية.

إذا كنت مبدعًا بعض الشيء ، فنحن على يقين من أنك ستجد الكثير من الأفكار للصور لتوليدها. ولكن بالنسبة لأولئك الذين سيكون الأمر أكثر تعقيدًا ، فمن الممكن أن تطلب ... ChatGPT للحصول على القليل من المساعدة. نعم ، استخدمنا الذكاء الاصطناعي لاستخدام ذكاء اصطناعي آخر ...

إجابة ChatGPT على السؤال: لا بد لي من كتابة مقال على dall.e ، هل لديك أي أفكار للصور التي يمكن إنشاؤها باستخدام نموذج الذكاء الاصطناعي هذا؟

بالطبع ، كنموذج لتوليد الصور ، يمكن لـ DALL-E إنشاء مجموعة متنوعة من الصور. إليك بعض الأفكار للصور التي يمكنك إنشاؤها باستخدام DALL-E:

حيوانات خيالية: اطلب من DALL-E إنشاء صور لحيوانات خيالية ، مثل تنين بأجنحة فراشة أو ثعبان بأرجل.

الأطعمة الغريبة: اطلب من DALL-E إنشاء صور لأطعمة غير عادية ، مثل بيتزا الشوكولاتة أو البرجر مع شرائح البطيخ.

ملابس غير عادية: اطلب من DALL-E إنشاء صور لملابس غريبة ، مثل قبعة على شكل برج إيفل أو حذاء بأجنحة.

المناظر الطبيعية الخيالية: اطلب من DALL-E إنشاء صور لمناظر طبيعية خيالية ، مثل مدينة تطفو في السحب أو غابة من عيش الغراب العملاق.

كائنات هجينة: اطلب من DALL-E إنشاء صور لأشياء هي مزيج من شيئين مختلفين ، مثل سرير يشبه أرجوحة شبكية أو سيارة بأجنحة طائر.

صور المشاهير: اطلب من DALL-E إنشاء صور لصور المشاهير غير الموجودة ، مثل نسخة بديلة لمارلين مونرو مع الوشم.

السيارات المستقبلية: اطلب من DALL-E إنشاء صور للسيارات المستقبلية ، مثل سيارة يمكن أن تتحول إلى طائرة أو سيارة يمكنها الطيران.

الهندسة المعمارية الخيالية: اطلب من DALL-E إنشاء صور للعمارة الخيالية ، مثل ناطحة سحاب على شكل تنين أو منزل يشبه شجرة.

هذه الأفكار هي مجرد اقتراحات لإعطائك فكرة عما يمكن أن تفعله DALL-E. هناك الآلاف من أفكار الصور الأخرى التي يمكنك إنشاؤها باستخدام قالب AI هذا.

كل ذكاء اصطناعي له أسلوبه الخاص

مع هذه القائمة ، دعنا نرى معًا كيفية إنشاء صورنا ، وأي من البرامج المختلفة المختارة هو الأفضل.

بالنسبة لصورتنا الأولى ، اخترنا تمثيل التنين بأجنحة الفراشة. لإضافة بعض السياق ، نطلب أيضًا تصوير هذا في "غابة خيالية من القصص الخيالية". اعتمادًا على IAs ، يمكن أن تؤثر لغة الطلب على النتيجة. لذلك سرعان ما اكتشفنا ذلك لـ DALL-E والانتشار المستقر كانت اللغة الإنجليزية هي اللغة التي أعطت أفضل النتائج. على العكس من ذلك ، يعمل تطبيق النص إلى الصور من Canva بشكل عام بشكل أفضل باللغة الفرنسية.

1. تم إنشاء DALL-E لصور تنين مجنح الفراشة

2. التنينات التي تم إنشاؤها عن طريق الانتشار المستقر

3. وأخيرًا الذي اخترنا الاحتفاظ به لأداة Canva

أول شيء يمكننا رؤيته بسرعة كبيرة: لنفس الطلب ، كل ذكاء اصطناعي له أسلوبه الخاص!

DALL-E لها جانب "خيالي" ، على الرغم من أن غابة "الحكاية الخرافية" مظلمة بعض الشيء بالنسبة للجنية ، إلا أن أجنحة الفراشة ممثلة بشكل جيد وأنيقة. انها في الاسلوب الفن الرقمي.
في Stable Diffusion ، يكون الأسلوب أكثر "بهجة" ، قليلا صبيانية. نتخيل جيدًا هذه الصور التي توضح قصة للأطفال. هنا تظهر التنانين بوضوح وتذكر الصين التي هي شعارها. من ناحية أخرى ، حجب الذكاء الاصطناعي أجنحة الفراشة تمامًا واختار الحل السهل بجعل فراشات حقيقية تظهر بجانب تنانيننا.
أخيرًا بالنسبة لأداة Canva ، اخترنا الصورة الوحيدة المقابلة لطلبنا من التحديد. ومع ذلك ، فإن العنصرين (التنين والأجنحة موجودان هنا). في حين أن جميع الصور موضوعية وقابلة للتنفيذ ، فإن Canva تعمل بشكل أفضل في تنفيذ الطلب بأمانة ، وبالتالي تربح نقطة أولى هنا.

ما هي احتمالات النمط الفني للصورة المطلوبة؟

إذا لم يتم طلب أي تفاصيل حول نمط الفن ، فسيقوم الذكاء الاصطناعي باختيارها لك كما في مثال التنانين.

ومع ذلك ، في Dall-e على سبيل المثال ، من الممكن تحديد الأنماط التالية:

ألوان زيتية : يمكن لـ Dall-e إنشاء لوحات زيتية من وصف الألوان والقوام التي تريد رؤيتها في اللوحة.
تصوير : يمكن لـ Dall-e إنشاء صور بناءً على الألوان والقوام والتفاصيل التي تريد رؤيتها في الصورة.
الفن الرقمي : يمكن لـ Dall-e إنتاج عمل فني رقمي من قالب مصمم مسبقًا أو من وصف الألوان والتفاصيل التي تريد رؤيتها في العمل الفني.
فن تجريدي : يمكن لـ Dall-e إنتاج أعمال مجردة بناءً على الحركات والألوان والأشكال التي تريد رؤيتها في العمل.
تصميم : يمكن لـ Dall-e إنشاء تصميمات بناءً على الألوان والأشكال التي تريد رؤيتها في التصميم.
فن المتجهات : يمكن لـ Dall-e إنشاء صور متجهة من قالب محدد مسبقًا أو من وصف الألوان والتفاصيل التي تريد رؤيتها في الصورة.

كانت أمثلة Dragon عبارة عن بداهة مصنوعة بأسلوب الفن الرقمي. سيؤثر النمط بشدة على الصورة النهائية التي تم إنشاؤها.

لا يزال أقوى ، من الممكن طلب أنماط بعض الفنانين المشهورين. لذلك أنشأنا دردشة في الأسلوب بيكاسو وفان جوخ ودالي ! والنتائج… مذهلة للغاية!

قطتنا المرسومة بالذكاء الاصطناعي في أنماط 3 سادة رسم عظيم

نمط القط بيكاسو
قطة فان جوخ
القط نمط دالي

الأفضل ، طلبنا بعد ذلك " قطة بأسلوب بيكاسو ودالي وفان جوخ وحصلنا على هذا:

لقد طلبنا أيضا "خنزير على طراز بيكاسو" والنتيجة كانت متساوية ، إن لم تكن أكثر ، مثيرة للإعجاب ...

من المرجح أن تُحدث أنظمة الذكاء الاصطناعي (سوف) ثورة في مجال الفن والإنترنت في السنوات القادمة ، وهو ما يحدث بالفعل مع NFTs المضاربة.

نحن نفهم ال عدم الثقة في المهنيين من الفن تجاه هذه الذكاء الاصطناعي الفنية ، فإن مخاوفهم هي نفسها مخاوف النشر والإبداع الأدبي تجاه روبوتات الدردشة مثل ChatGPT! إنهم على حق ، كل هذه المخاوف برأينا لها ما يبررها!

ما هي الطرق المختلفة لطلب إنشاء صورة باستخدام Dall-e؟

يمكن استخدام عدة طرق للإشارة إلى إنشاء صورة باستخدام Dalle-e ، بما في ذلك طرق الرسوم للحصول على نتيجة أسرع تتوافق مع احتياجاتك:

توليد الصور من الكلمات الرئيسية : يمكنك إدخال كلمة رئيسية وسيقوم Dall-e بإنتاج صورة بناءً على الكلمات الرئيسية التي أدخلتها.
توليد الصور من الجمل : يمكنك إدخال جملة كاملة وسيقوم Dall-e بإنتاج صورة بناءً على الجملة التي أدخلتها.
توليد الصور من أوصاف الصور : يمكن لـ Dall-e إنشاء صور من وصف مفصل للألوان والأشكال والأشياء التي تريد رؤيتها في الصورة.
توليد الصور من المشاهد : يمكن لـ Dall-e إنشاء صور ثلاثية الأبعاد من وصف كامل للمشهد.
توليد الصور من الأنماط : يمكن لـ Dall-e إنشاء صور من الأنماط التي تدخلها.
توليد الصور من القوالب : يمكنك تزويد Dall-e بقالب محدد مسبقًا وسوف ينتج صورًا بناءً على النموذج الذي قدمته.
توليد الصور من المتواليات المتحركة : يمكن لـ Dall-e إنشاء تسلسلات متحركة من وصف الحركات والألوان والأصوات التي تريد رؤيتها في التسلسل.

صور واقعية لكن غير محتملة

ثم طلبنا من مولدات الصور التي تعمل بالذكاء الاصطناعي أن ترسمنا سلطة بعيون : عنصران لا يجتمعان للوهلة الأولى. ومع ذلك ، في هذه المرحلة ، تم تشغيل مولداتنا الثلاثة دون أي صعوبة واضحة.

1. الصور الأربع ، لسلطة ذات عيون ، اقترحها DALL-E

2. تم إنشاء الصورتين المتوافقة مع طلبنا بواسطة Stable Diffusion

3. والصورتان المقابلتان لأداة Canva

هنا مرة أخرى ، كل صورة لها أسلوبها الخاص ، ولكن اللافت للنظر بشكل خاص هو واقعية الصور المختلفة: لقد استخدم الذكاء الاصطناعي أسلوب التصوير.

نحن ندرك جيدًا الأطعمة بشكل خاص ، لدرجة أننا قد نرغب في إعادة إنتاج الأفكار المختلفة المقترحة في المطبخ. إذا تميزت Canva بأصالتها من خلال تقديم صورة مع إلهام "emoticon" ، فهنا DALL-E هو الذي يربح النقطة بأربع صور مختلفة وكلها في الموضوع المطلوب.

من بين التقلبات في Stable Diffusion ، لا تزال إحدى الصور تستحق العودة إليها

في الواقع ، على هذه الصورة محذوفة لأنها لا تشمل العيون ، نرى من ناحية أخرى جهد الواقعية للذكاء الاصطناعي في تمثيل خطة العمل.

إن الذكاء الاصطناعي لدينا قادر بالفعل على ربط كلمة "سلطة" بالبيئة المقابلة. كان هذا هو الحال بالفعل في الصور أعلاه مع تمثيل اللوحات والشوك وغيرها من العناصر المتعلقة بمجال الطهي.

الإخفاقات التي لا تزال منتظمة

على الرغم من كفاءتها العامة ، لا تزال أنظمة الذكاء الاصطناعي لدينا تنتج قدرًا جيدًا ترى الصور الخاطئة المتوسطة غير متوافقة تمامًا مع الطلب. كان هذا هو الحال بالنسبة لنا قبعة على شكل برج إيفل.

تفوز DALL-E بالنقطة مع صورتها الوحيدة التي تقترب من طلبنا: قبعة بيضاء ، يعلوها برج مصغر نتخيله تمامًا على رئيس مدينة جينيفيف دو فونتيني !

بصرف النظر عن هذه الضحكة الصغيرة التي يقدمها الذكاء الاصطناعي للذكاء الاصطناعي المفتوح ، كانت الصور الأخرى إما واقعية للغاية ، حيث تمثل ببساطة أحد العناصر بينما تحجب الآخر:

في الصورة الأولى ، يمثل Stable Diffusion البرج ، بينما اختار DALL-E في الصورة الثانية إرسال مجموعة من القبعات إلينا ، مما أدى أيضًا إلى حجب الجزء الثاني من طلبنا.

إما أن يكون لديهم فهم خاطئ للطلب كما في هاتين الصورتين حيث يمثل DALL-E بدلاً من ذلك تماثيل تذكارية لبرج إيفل:

أخيرًا ، تكون بعض الصور أحيانًا غريبة تمامًا ، كما كان الحال بالنسبة لهذه الصورة التي من المفترض أن تمثل "شخصًا من خيال IA Stable Diffusion" اختار بعد ذلك إضافة اقتباس تلقائيًا بلغة غير معروفة ... قريب من اللغة الإنجليزية ...

حساسية تختلف أحيانًا كلمة بكلمة

من خلال إجراء الاختبارات ، ندرك بسرعة أنه يكفي أحيانًا للذكاء الاصطناعي الخاص بنا تصحيح الموقف في حالة حدوث نتائج غير مرضية. لذلك عندما نسأل الذكاء الاصطناعي لدينا لأول مرة "مدينة عائمة في سماء غائمة" عن طريق اختيار أفضل صورة لكل منها ، نحصل على النتيجة التالية:

على التوالي ، نتائج Stable Diffusion و DALL-E و Canva

صور جميلة جدًا ، لكنها لا تعكس حقًا الدلالة "غير الواقعية" لطلبنا الذي يفهمه البشر ولكن على ما يبدو ليس من قبل المولدين لدينا. كل ما يتطلبه الأمر هو تغيير طفيف في الطلب للحصول على نتائج مختلفة تمامًا.

لذلك مع الجملة "مدينة رائعة تطفو في سماء غائمة" نحصل على هذه المرة:

1. صور تخيلية أكثر بكثير من DALL-E

2. مدن رائعة جدًا من Stable Diffusion والتي تتجاهل تمامًا جزء "العائمة في السماء الملبدة بالغيوم"

3. بعض المشاهد التي يمكن التقاطها من لعبة فيديو (Minecraft أو Lego Worlds على سبيل المثال) بواسطة Canva

هنا يمكننا منح نقطة لـ DALL-E و Canva اللذين أدارا ، من خلال أحد طلباتنا أو غيرها ، لجعل مدينتنا تطفو في السحاب.

ولكن بعد ذلك ، أي مستقبل لجيل الصور؟

في مواجهة حل يعمل جيدًا بشكل عام ، يتساءل المرء عما يمكن أن تكون عليه الاستخدامات المستقبلية لتوليد الصور بواسطة الذكاء الاصطناعي. بالطبع من المغري أن أقتبس هنا إنشاء فشل على الإنترنت ، فلا تتردد في المجيء نشر على موقعنا forum تلك التي قد تكون صادفتها بالفعل عبر الإنترنت.

لكن يمكننا أيضًا تخيل استخدامات أكثر جدية. وبالتالي ، فإن النتائج التي تم الحصول عليها من خلال مطالبة أداة Canva بإنشاء صورة "لشجرة هي في الواقع منزل" يمكن أن تعطي أفكارًا بسهولة لمهندس معماري مسؤول عن إنشاء موائل يمكن أن تمتزج مع الطبيعة!

ولكن بعد ذلك ، أي من مولدات الصور الثلاثة لدينا هو الأفضل؟

بالنسبة للشجرة التي ستكون أيضًا منزلًا ، فإننا نعطي نقطة بكل سهولة بسهولة!

أمثلة للصور المقترحة على التوالي بواسطة DALL-E ، Stable Diffusion ثم أداة Canva

لقد تحدت السيارة ذات أجنحة الطيور جميع أنظمة الذكاء الاصطناعي لدينا ، لكن السيارة التي يمكنها الطيران سمحت لـ Canva و Stable Diffusion بالتميز ببعض العروض المستقبلية الواقعية:

انتشار مستقر على التوالي في الأعلى و Canva في الأسفل.

أخيرًا ، أثبتت DALL-E أنها فعالة تمامًا مع مبنى على شكل تنين (التي لا تزال قيد الإنشاء) ، وتمكن Canva من تلبية طلب صورة شخصية قمنا بتعديلها إلى حد ما من خلال استبدال الشخصية الشهيرة بـ "شخص من خيال الذكاء الاصطناعي".

على الرغم من أن بعض العناصر تشير إلى إنشاء الصورة وراء صورتي Canva ، إلا أن الواقعية لا تزال مذهلة.

في العد النهائي ، هذه هي بالتالي أداة DALL-E و Canva التي تربح 5 نقاط لكل منهما على التوالي.

فهم قادرون عمومًا على تقديم نتائج تتماشى مع غالبية طلبات المستخدمين.

تبرز Canva بواقعيتها بينما تبدو DALL-E أكثر صلة بمجرد أن يتطلب الطلب الخيال أو مجال الرسم.

ومع ذلك ، على الرغم من نقطتين فقط ، فإن Stable Diffusion لا يفشل في جودة الصورة التي يمكنه توفيرها! يكمن الجانب السلبي في فهمه لطلبات المستخدمين لأنه غالبًا ما يظل متواضعًا جدًا. ومع ذلك ، لا يزال من المثير للاهتمام اكتشافه أيضًا.

على أي حال ، يمكننا أن نتوقع في السنوات القادمة أن نرى الذكاء الاصطناعي يحدث ثورة في العديد من قطاعات النشاط. وبالتأكيد أسرع مما يعتقده البعض منذ ذلك الحين الكتب المكتوبة جزئيًا أو كليًا بواسطة الذكاء الاصطناعي معروضة للبيع بالفعل على أمازون ...تحدث هذا الفيديو القصير من BFMTV عن ذلك قبل أيام قليلة: