في هذا المقال سنتعرف على أنظمة تحويل النصوص إلى صور، وهل هذا أصبح ممكننًا؟ أم أنه مقتصر على أفلام الخيال العلمي والسحر فحسب! وما هي الطرق والخوارزميات والبرمجيات التي توصل إليها الباحثون في هذا المجال.
خوارزميات ونماذج تحويل النص إلى صورة (Text to Image) (T2I) هي مثال على التطور الهائل في الرؤية الحاسوبية. مصطلح تحويل النص إلى صورة يقصد به / توليد أو إنشاء صور واقعية بالنسبة للرؤية البشرية من خلال المدخلات التي على شكل نص مقروء. وغالبًا ما يتم تجميع البيانات من شبكة الإنترنت نظرًا لأنها تعكس الواقع وأيضًا حجمها الهائل.
بشكل مبسط، أنظمة تحويل النصوص إلى صور يتم تدريبها على كمية هائلة من البيانات النصية والبصرية، مما يجعل هذه الأنظمة تتعلم استنساخ الصور ودمجها بما يتناسب مع بيانات جديدة. وسيتم شرح نموذج من ابتكار الباحثين في المصدر [1] كمثال بسيط على النماذج المشابهة.
تحويل النص إلى صورة (T2I) هو العملية العكسية لعملية التسمية الإيضاحية للصورة (Image Captioning)، وتعرف أيضًا بتوليد الصور من خلال النصوص (T2I)، وهي توليد نص توضيحي ووصفي من مدخلات بصرية (صورة). أما في توليد الصورة من نص، يأخذ نموذج تحويل صورة إلى نص مدخلًا على شكل وصف مكتوب بلغات البشر ثم ينتج النموذج صورة ملونة تطابق الوصف المدخل.
توليد الصور من خلال النصوص (T2I) أصبح مجال مهما للدراسة نظرا لقدرته الهائلة في عدة مجالات. من التطبيقات المستخدمة ضمن مجال إنشاء صور فوتوغرافية حقيقية من خلال النص:
تتطلب نماذج تحويل النصوص إلى صور بيانات واسعة النطاق. مما يجعل الباحثين يعتمدون على كمية كبيرة من بيانات غير دقيقة ومسحوبة من الإنترنت. من المهم أن تكون البيانات غير مفلترة كي تحاكي الصور الواقعية بشكل أفضل حيث اكتشف مدققو البيانات أن البيانات التي تسحب من الإنترنت دون فلترة تميل إلى عكس الأفكار النمطية للمجتمع، ووجهات النظر المتباينة.
خوارزميات تحويل النصوص إلى صور تتكون من عدة خوارزميات وشبكات من أهمها شبكات الخصوم التوليدية (GANS)
شبكات الخصوم التوليدية (GANs) هي شبكات تعلم عميقة مكونة من شبكات عصبية التفافية (CNN). وتحتوي على شبكتين عصبيتين، شبكة لتوليد البيانات وشبكة لتصنيف البيانات لبيانات حقيقية ومزيفة.
شبكة الخصوم (GAN) هي خوارزمية مبنية على نظرية الألعاب (Game Theory) التي تُعنى بالنماذج التوليدية عن طريق التعلم (learning generative models). هدف شبكات الخصوم التوليدية الرئيسي هو تدريب المولد على توليد عينات وتدريب المميز على التمييز والمفاضلة بين البيانات الصحيحة والخاطئة.
لتوليد صور حقيقية ذات جودة عالية: يتم استخدام الشبكات العصبية المتكررة (recurrent neural networks) (RNN) من أجل ترميز النصوص الوصفية المدخلة من قبل البشر، ثم استخدام طبقات التفافية من أجل فك ترميز الصور.
يتم استخدام كم هائل من البيانات البصرية والنصية من أجل زيادة صحة ودقة التوقع. تنقسم مرحلة تحضير البيانات إلى قسمين، تحضير البيانات النصية وتحضير البيانات البصرية
لعملية تحضير البيانات النصية للتدريب، يتم استخدام مكتبة NLTK المستخدمة في لغة بايثون لتجزيء الجمل إلى كلمات ثم تحويل الكلمات إلى متجهات (Vectors) مُعرفة تحتوي على قيم رقمية.
أما تحضير الصور من أجل تدريبها، تتطلب توحيد قياساتها بنفس الأبعاد. ثم يتم تحويلها إلى مصفوفات رقمية.
أخيرًا يتم تحميل متجهات المصطلحات ومصفوفات الصور على نموذج التدريب. ثم تحضر البيانات على شكل أزواج من متجات النصوص ومصفوفات الصور، فكل متجه يرافقه مصفوفة، وبتعبير أبسط، كل جملة يرافقها صورة.
بعد إدخال نص الوصف من قبل المستخدم، تُستَخرج الخواص المميزة من الجملة وتحول إلى متجه. ثم يتم تغذية مولد الصور بهذا المتجه. مولد الصور ينتج صورًا غير حقيقية ويغذي المميز (المفاضل) بتلك الصور. يتم مراقبة وتصحيح الأخطاء عن طريق دوال الخسارة.
بعض التجارب منقولة من المواقع الرسمية للنماذج وبعضها تم تجربتها بواسطة فريق أكايا.*
*المدخلات كانت باللغة الإنجليزية فقط
*تمت ترجمة النصوص بشكل حرفي لمحاكاة المدخلات.
مثال تجريبي من برمجية imagen. نلاحظ دقة التقليد حيث أنً اللوحات كما لو أنها مطابقة للأصلية.
مثال تجريبي من برمجية imagen. مثال آخر يدل على دقة التقليد واتباع الأوامر المدخلة، حيث أن الاستجابة لهذا الطلب يعد من تطور الخيال البشري!
مثال لوصف معقد من شركة ميدجورني.
مثال لوصف معقد من شركة ميدجورني، نلاحظ الوصف الدقيق للعسل!
وهنا نلاحظ إمكانية التحكم بالمعطيات فبالمثال هذا تم تقليد كرسي على شكل أفوكادو وبالمثال التالي تم تغيير معطى أفوكادو إلى فراولة ومعطى كرسي إلى مصباح بواسطة برمجية دال اي.
تم تقليد مصباح على شكل فراولة بواسطة برمجية دال اي.