CREATING DIGITAL IMAGES USING ARTIFICIAL INTELLIGENCE
Linked Agent
Al-Khazraji, Ayman, Thesis advisor
Language
English
Extent
[1], 13, 156, [2] Pages
Place of institution
Department of Electrical and Electronics Engineering, College of Engineering, University of Bahrain, Sakhir, Bahrain
Thesis Type
Master
Institution
University of Bahrain
Description
Abstract
This study explores the performance and potential of image generation models,
including pix2pix, Real-ESRGAN, VQGAN+CLIP, and Multi-Perceptor VQGAN+CLIP. The
results indicate that pix2pix shows potential in producing realistic images despite the further
required improvements in image quality and fidelity. Real-ESRGAN serves as an effective
post-processing technique to enhance the resolution and quality of images generated by
pix2pix, particularly in facade-to-building, jewellery, and portraits domains. VQGAN+CLIP
has limitations in generating high-quality images without input images. Nevertheless,
incorporating input images and leveraging Real-ESRGAN will improve the results. Multi-
Perceptor VQGAN+CLIP is promising in generating images based on text prompts, with better
adaptation and improved image quality compared to VQGAN+CLIP. Integrating pix2pix with
the Improved Multi-Perceptor VQGAN+CLIP and VQGAN+CLIP models enhance image
synthesis, improves control over image generation, and handles efficiently complex inputoutput
relationships. It has been following that combining Real-ESRGAN with VQGAN+CLIP
models improve image quality, enhances details, and enables better adaptation to real-world
scenarios. The study provides valuable insights for advancing the field of image generation.
Further future research can be directed to refine the previously mentioned models, address their
limitations, and improve accuracy, realism, as well as artistic value.
This study explores the performance and potential of image generation models,
including pix2pix, Real-ESRGAN, VQGAN+CLIP, and Multi-Perceptor VQGAN+CLIP. The
results indicate that pix2pix shows potential in producing realistic images despite the further
required improvements in image quality and fidelity. Real-ESRGAN serves as an effective
post-processing technique to enhance the resolution and quality of images generated by
pix2pix, particularly in facade-to-building, jewellery, and portraits domains. VQGAN+CLIP
has limitations in generating high-quality images without input images. Nevertheless,
incorporating input images and leveraging Real-ESRGAN will improve the results. Multi-
Perceptor VQGAN+CLIP is promising in generating images based on text prompts, with better
adaptation and improved image quality compared to VQGAN+CLIP. Integrating pix2pix with
the Improved Multi-Perceptor VQGAN+CLIP and VQGAN+CLIP models enhance image
synthesis, improves control over image generation, and handles efficiently complex inputoutput
relationships. It has been following that combining Real-ESRGAN with VQGAN+CLIP
models improve image quality, enhances details, and enables better adaptation to real-world
scenarios. The study provides valuable insights for advancing the field of image generation.
Further future research can be directed to refine the previously mentioned models, address their
limitations, and improve accuracy, realism, as well as artistic value.
الخلاصة
تستكشف هذه الدراسة أداء وإمكانات نماذج توليد الصور باستخدام التقنيات الحديثة والتي
Multi-Perceptor و VQGAN + CLIP و Real-ESRGAN و pix2pix تشمل
فان النتائج المتميزة تشير الى إمكانية pix2pix فيما يتعلق بنموذج .VQGAN + CLIP
إنتاج صور واقعية على الرغم من الحاجة الى بعض التحسينات الإضافية في جودة وصدقية
كأسلوب فعال للمعالجة اللاحقة Real-ESRGAN الصورة. ومن جهة أخرى، يمكن استخدام
خاصة في المجالات بواجهات المباني ،pix2pix لتعزيز دقة وجودة الصور الناتجة عن
يعاني من بعض VQGAN + CLIP والمجوهرات والصور الشخصية. فضلاً عن ذلك فان
القيود والمحددات عند إنشاء صور عالية الجودة دون وجود. ومع ذلك، فإن النتائج يمكن
اما فيما يتعلق ب .Real-ESRGAN تحسينها بإضافة صورة مدخلة بالإضافة الى استخدام
فان النتائج الجيدة التي تم الحصول عليها تبين Multi-Perceptor VQGAN + CLIP
إمكانية استخدامه في المستقبل من اجل إنشاء الصور بناءً على معطيات مكتوبة ، مع تكيف
مع نماذج pix2pix إن دمج .VQGAN + CLIP أفضل وجودة صورة محسنة مقارنة ب
يعزز تركيب الصور، VQGAN + CLIP المحسنة متعددة الإدراك و + VQGAN
ويحسن التحكم في توليد الصور، ويتعامل بكفاءة مع علاقات الإدخال والإخراج المعقدة. كما
يحسن جودة VQGAN + CLIP و Real-ESRGAN تبين الدراسة أن الجمع بين نماذج
الصور ويعزز التفاصيل ويتيح تكيفًا أفضل مع سيناريوهات العالم الواقعي. تقدم الدراسة رؤى
قيمة للارتقاء بمجال توليد الصور باستخدام الذكاء الاصطناعي . يمكن توجيه المزيد من
الأبحاث المستقبلية من اجل تحسين النماذج المذكورة سابقًا، ومعالجة جوانب القصور فيها،
وتحسين الدقة والواقعية، فضلاً عن القيمة الفنية.
Note
عنوان الغلاف:
إنشاء الصور الرقمية باستخدام الذكاء الاصطناعي
إنشاء الصور الرقمية باستخدام الذكاء الاصطناعي
Member of
Same Subject