تقنية تحويل النصوص إلى صور

تحويل النص إلى صورة (T2I) في هذا المقال سنتعرف على أنظمة تحويل النصوص إلى صور، وهل هذا أصبح ممكننًا؟ أم أنه مقتصر على أفلام الخيال العلمي والسحر فحسب! وما هي الطرق والخوارزميات والبرمجيات التي توصل إليها الباحثون في هذا المجال. خوارزميات ونماذج تحويل النص إلى صورة (Text to Image) (T2I) هي مثال على التطور الهائل […]

شارك هذا المنشور

تحويل النص إلى صورة (T2I)

في هذا المقال سنتعرف على أنظمة تحويل النصوص إلى صور، وهل هذا أصبح ممكننًا؟ أم أنه مقتصر على أفلام الخيال العلمي والسحر فحسب! وما هي الطرق والخوارزميات والبرمجيات التي توصل إليها الباحثون في هذا المجال.

خوارزميات ونماذج تحويل النص إلى صورة (Text to Image) (T2I) هي مثال على التطور الهائل في الرؤية الحاسوبية. مصطلح تحويل النص إلى صورة يقصد به / توليد أو إنشاء صور واقعية بالنسبة للرؤية البشرية من خلال المدخلات التي على شكل نص مقروء. وغالبًا ما يتم تجميع البيانات من شبكة الإنترنت نظرًا لأنها تعكس الواقع وأيضًا حجمها الهائل.

بشكل مبسط، أنظمة تحويل النصوص إلى صور يتم تدريبها على كمية هائلة من البيانات النصية والبصرية، مما يجعل هذه الأنظمة تتعلم استنساخ الصور ودمجها بما يتناسب مع بيانات جديدة. وسيتم شرح نموذج من ابتكار الباحثين في المصدر [1] كمثال بسيط على النماذج المشابهة.

الفرق بين عملية إيضاح الصور (Image Captioning) وعملية تحويل النصوص إلى صور T2I

تحويل النص إلى صورة (T2I) هو العملية العكسية لعملية التسمية الإيضاحية للصورة (Image Captioning)، وتعرف أيضًا بتوليد الصور من خلال النصوص (T2I)، وهي توليد نص توضيحي ووصفي من مدخلات بصرية (صورة). أما في توليد الصورة من نص، يأخذ نموذج تحويل صورة إلى نص مدخلًا على شكل وصف مكتوب بلغات البشر ثم ينتج النموذج صورة ملونة تطابق الوصف المدخل.

توليد الصور من خلال النصوص (T2I) أصبح مجال مهما للدراسة نظرا لقدرته الهائلة في عدة مجالات. من التطبيقات المستخدمة ضمن مجال إنشاء صور فوتوغرافية حقيقية من خلال النص:

البحث اعتمادًا على الصورة (photo- searching)،
التعديل من خلال الصورة، توليد الفن (art generation)،
إيضاح الصورة (Image Captioning)
رسم اللوحات
التصميم الداخلي
التلاعب بالصورة.

البيانات

تتطلب نماذج تحويل النصوص إلى صور بيانات واسعة النطاق. مما يجعل الباحثين يعتمدون على كمية كبيرة من بيانات غير دقيقة ومسحوبة من الإنترنت. من المهم أن تكون البيانات غير مفلترة كي تحاكي الصور الواقعية بشكل أفضل حيث اكتشف مدققو البيانات أن البيانات التي تسحب من الإنترنت دون فلترة تميل إلى عكس الأفكار النمطية للمجتمع، ووجهات النظر المتباينة.

خوارزميات تحويل النصوص إلى صور

خوارزميات تحويل النصوص إلى صور تتكون من عدة خوارزميات وشبكات من أهمها شبكات الخصوم التوليدية (GANS)

شبكات الخصوم التوليدية (GANs)

شبكات الخصوم التوليدية (GANs) هي شبكات تعلم عميقة مكونة من شبكات عصبية التفافية (CNN). وتحتوي على شبكتين عصبيتين، شبكة لتوليد البيانات وشبكة لتصنيف البيانات لبيانات حقيقية ومزيفة.

شبكة الخصوم (GAN) هي خوارزمية مبنية على نظرية الألعاب (Game Theory) التي تُعنى بالنماذج التوليدية عن طريق التعلم (learning generative models). هدف شبكات الخصوم التوليدية الرئيسي هو تدريب المولد على توليد عينات وتدريب المميز على التمييز والمفاضلة بين البيانات الصحيحة والخاطئة.

لتوليد صور حقيقية ذات جودة عالية: يتم استخدام الشبكات العصبية المتكررة (recurrent neural networks) (RNN) من أجل ترميز النصوص الوصفية المدخلة من قبل البشر، ثم استخدام طبقات التفافية من أجل فك ترميز الصور.

تحضير البيانات (المعالجة القبلية)

يتم استخدام كم هائل من البيانات البصرية والنصية من أجل زيادة صحة ودقة التوقع. تنقسم مرحلة تحضير البيانات إلى قسمين، تحضير البيانات النصية وتحضير البيانات البصرية

تحضير البيانات النصية

لعملية تحضير البيانات النصية للتدريب، يتم استخدام مكتبة NLTK المستخدمة في لغة بايثون لتجزيء الجمل إلى كلمات ثم تحويل الكلمات إلى متجهات (Vectors) مُعرفة تحتوي على قيم رقمية.

تحضير البيانات البصرية

أما تحضير الصور من أجل تدريبها، تتطلب توحيد قياساتها بنفس الأبعاد. ثم يتم تحويلها إلى مصفوفات رقمية.

أخيرًا يتم تحميل متجهات المصطلحات ومصفوفات الصور على نموذج التدريب. ثم تحضر البيانات على شكل أزواج من متجات النصوص ومصفوفات الصور، فكل متجه يرافقه مصفوفة، وبتعبير أبسط، كل جملة يرافقها صورة.

طريقة عمل نموذج تحويل النص إلى صورة

بعد إدخال نص الوصف من قبل المستخدم، تُستَخرج الخواص المميزة من الجملة وتحول إلى متجه. ثم يتم تغذية مولد الصور بهذا المتجه. مولد الصور ينتج صورًا غير حقيقية ويغذي المميز (المفاضل) بتلك الصور. يتم مراقبة وتصحيح الأخطاء عن طريق دوال الخسارة.

نماذج عملاقة بهذه التقنية

DALL-E، وهي برمجية مصممة من قبل مختبر الذكاء الاصطناعي في شركة OpenAI.
Imagen، وهي برمجية مصممة من قبل شركة Google
Midjourney ، وهي شركة ناشئة ابتكرت برمجية بنفس الاسم.

أمثلة تجريبية

بعض التجارب منقولة من المواقع الرسمية للنماذج وبعضها تم تجربتها بواسطة فريق أكايا.*

*المدخلات كانت باللغة الإنجليزية فقط

*تمت ترجمة النصوص بشكل حرفي لمحاكاة المدخلات.

مثال تجريبي من برمجية imagen. نلاحظ دقة التقليد حيث أنً اللوحات كما لو أنها مطابقة للأصلية.

مثال تجريبي من برمجية imagen. مثال آخر يدل على دقة التقليد واتباع الأوامر المدخلة، حيث أن الاستجابة لهذا الطلب يعد من تطور الخيال البشري!

مثال لوصف معقد من شركة ميدجورني.

مثال لوصف معقد من شركة ميدجورني، نلاحظ الوصف الدقيق للعسل!

وهنا نلاحظ إمكانية التحكم بالمعطيات فبالمثال هذا تم تقليد كرسي على شكل أفوكادو وبالمثال التالي تم تغيير معطى أفوكادو إلى فراولة ومعطى كرسي إلى مصباح بواسطة برمجية دال اي.

تم تقليد مصباح على شكل فراولة بواسطة برمجية دال اي.

الملخص

مقدمة عن الطرق والخوارزميات والبرمجيات التي توصل إليها الباحثون في هذا مجال تحويل النص إلى صورة
جمع البيانات من الإنترنت من غير فلترة أو تدقيق
تحضير البيانات ينقسم إلى بيانات نصية وبيانات بصرية وينتهي بعملية ترميز البيانات على شكل متجهات ومصفوفات
خلفية عن شبكات الخصوم التوليدية وأهميتها في تقنية تحويل النصوص إلى صور
طريقة عمل خوارزميات تحويل النص إلى صورة عن طريق نماذج شبكة الخصوم التوليدية GANs
أمثلة تجريبية ومنقولة من برمجيات: Imagen, Midjourney, DAll-E

المصادر

Ramazan,sadia.2022. Text-to-Image Generation Using Deep Learning. Conference: 7th International Electrical Engineering Conference, Karachi, Pakistan. https://www.researchgate.net/publication/362353674_Text-to- Image_Generation_Using_Deep_Learning
Ramesh, Aditya., et al. 2022, Hierarchical Text-Conditional Image Generation with CLIP Latents, https://arxiv.org/abs/2204.06125
Text-to-image AI generators, explained, https://thehustle.co/05252022-text-to-image-ai-generators/
JAMES VINCENT, All these images were generated by Google’s latest text-to-image AI, https://www.theverge.com/2022/5/24/23139297/google-imagen-text-to-image-ai-system-examples-paper
Anushka Singh, 2021 GAN: Generative adversarial network, https://medium.com/analytics-vidhya/gan-generative-adversarial-network-fbef2a96e183
Dall-e, OpenAI, https://openai.com/dall-e-2/
Imagen, Google, https://imagen.research.google/
Midjourney, https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F

نور عمار

مبرمجة وباحثة في تعلم الآلة. حاصلة على بكالوريوس تقنية معلومات من الجامعة العربية المفتوحة، وماستر علم البيانات والذكاء الاصطناعي من جامعة اسطنبول آيدن. مهتمة بالرؤية الحاسوبية، ومعالجة اللغات الطبيعية، وأتمتة الروبوت.

جميع المقالات

الدروس:

Uncategorized

الدرس الرابع | التعرف على الوجوه

الدرس الرابع: التعرف على الوجوه محتويات هذا الدرس: خوارزمية هاار التتالي تطبيق عملي: تحديد الوجوه على صورة تطبيق عملي: تحديد الوجوه على فيديو الدروس الأخرى

نور عمار يوليو 31, 2023

دورات تعليمية

الدرس الثالث | المرشحات ونواة الالتفاف

الدرس الثالث : المرشحات والنواة الالتفافية محتويات هذا الدرس: المرشحات النواة الالتفافية عملية الترشيح شحذ الصورة تشويش الصورة تحديد الحواف الدروس الأخرى

نور عمار يوليو 31, 2023

دورات أخرى:

دورات تعليمية

الدرس الثالث | المرشحات ونواة الالتفاف

نور عمار يوليو 31, 2023

Uncategorized

الدرس الثاني | مساحات الألوان في الصورة

الدرس الثاني: مساحات الألوان في الصورة محتويات هذا الدرس: مساحات ألوان الصورة شرح مبادئ الألوان في الصور تحويل الألوان بين الصور تحويل الصورة الملونة إلى

نور عمار يوليو 31, 2023

تقنية تحويل النصوص إلى صور​

شارك هذا المنشور

تحويل النص إلى صورة (T2I)

الفرق بين عملية إيضاح الصور (Image Captioning) وعملية تحويل النصوص إلى صور T2I

البيانات

خوارزميات تحويل النصوص إلى صور

شبكات الخصوم التوليدية (GANs)

تحضير البيانات (المعالجة القبلية)

تحضير البيانات النصية

تحضير البيانات البصرية

طريقة عمل نموذج تحويل النص إلى صورة

نماذج عملاقة بهذه التقنية

أمثلة تجريبية

الملخص

المصادر

نور عمار

الدروس:

الدرس الرابع | التعرف على الوجوه

الدرس الثالث | المرشحات ونواة الالتفاف

دورات أخرى:

الدرس الثالث | المرشحات ونواة الالتفاف

الدرس الثاني | مساحات الألوان في الصورة

تقنية تحويل النصوص إلى صور