وثيقة
المعرف
https://digitalrepository.uob.edu.bh/id/2e399eb4-143d-44fc-8a70-8d356fd27d80

Novel Graph Deep Clustering Models Based on Autoencoder

وكيل مرتبط
Ksantini, Riadh, مشرف الرسالة العلمية
Alqaddoumi, Abdulla , مشرف الرسالة العلمية
تاريخ النشر
2024
اللغة
الأنجليزية
مدى
[1], 16, 133, [3] pages
مكان المؤسسة
Sakhir, Bahrain
نوع الرسالة الجامعية
Thesis BHD
الجهه المانحه
UNIVERSITY OF BAHRAIN College of Information Technology Department of Information Systems
الملخص الإنجليزي
ABSTRACT : Graphs are essential to data analysis in machine learning, providing a structure for analyzing complex relationships within large datasets. This facilitates advanced algorith- mic interpretations and precise data clustering, unlocking significant insights across vari- ous scientific and technological fields. Deep clustering combines the capabilities of deep learning with clustering techniques, proving more effective for high-dimensional data than traditional methods. In applications like natural language processing and computer vision, graph deep clustering excels in anomaly detection and data exploration. Recent advancements in graph deep clustering are driven by self-supervised and pseudo- supervised learning techniques. However, these techniques face challenges: joint training causes Feature Randomness and Feature Drift, while independent training introduces Fea- ture Twist. Utilizing pseudo-labels generates random, unreliable features, and transitioning from self-supervision to pseudo-supervision can twist latent manifolds. The inherent com- plexity of graph structures also poses significant obstacles, with larger datasets demanding exponential computational resources and presenting scalability issues. This study addresses these limitations in graph deep clustering paradigms, focusing on Feature Randomness, Feature Drift, and Feature Twist, as well as the computational bur- dens of processing large-scale graph data. The new paradigm replaces pseudo-supervision with a second round of self-supervision training, smoothing the transition between instance- level and neighborhood-level self-supervision and preventing Feature Drift caused by com- petition between self-supervision and pseudo-supervision. Our model leverages autoencoders for deep learning, compressing data into lower- dimensional space for accurate clustering by capturing essential data features. I introduce a rethinking of deep clustering paradigms, denoted R-DC, to address Feature Randomness, Feature Drift, and Feature Twist. Incorporating a sophisticated filtering technique atop the R-DC model forms the Graph Rethinking of Deep Clustering Paradigms, named GR- DC. Experiments on ten datasets, comparing six image-based and eleven graph-based deep clustering models, show substantial improvements. The results demonstrate that the neigh- bor filtering mechanism and the Laplacian Smoothing Filter achieve promising outcomes compared to the seventeen baseline models.
ملاحظة
Tittel on cover :
أساليب جديدة للتعلم العميق باستخدام بيانات على شكل الرسومات
قالب العنصر
أطروحات
الملخص العربي
الملخص :

أصبحت الأشكال التي تشرح البيانات والخصائص التابعة لها، تلعب دورا مهما وأساسيا في مجال الذكاء

الاصطناعي وتحديدا تعلم الآلة. حيث توفر إطارًا مرنا وقويا لنمذجة العلاقات والتبعيات المعقدة بين نقاط البيانات. في السنوات الأخيرة، ظهر مجال التعلم الآلي القائم على الأشكال والرسوم البيانية كأحد أهم المجالات في هذا المجال، محدثا ثورة في مختلف المجالات ودفع حدود ما يمكن تحقيقه باستخدام خوارزميات التعلم الآلي. واحدة من التطبيقات البارزة للرسوم البيانية في التعلم الآلي هي التعلم العميق. وهو نهج حديث في مجال التعلم الآلي وتحليل البيانات. يجمع بين قوة تعلم الآلة مع مبادئ التجميع لاكتشاف الهياكل والأنماط المخفية داخل البيانات المعقدة. على عكس الطرق التقليدية للتجميع، أظهر التجميع العميق فعالية أكبر في تجميع البيانات المعقدة ذات الأبعاد العالية. تم استخدام التجميع العميق في مختلف التطبيقات، مثل معالجة اللغة الطبيعية ورؤية الحاسوب، واكتشاف الأخطاء الى جانب استكشاف البيانات ان قدرة التجميع العميق على التكييف، تجعله خيارا مثاليا لتلبية احتياجات تحليل البيانات الحديثة.

شهدت التطورات الأخيرة في التعلم الآلي ظهور نماذج مبنية على التجميع العميق القائم على الرسوم البيانية، والتي تدمج تقنيات التعلم العميق مع التمثيلات القائمة على الرسوم البيانية لأداء مهام التجميع. تم تحفيز التطورات الأخيرة في التجميع العميق والتجميع العميق القائم على الرسوم البيانية بتقدم ملحوظ في تقنيات

التعلم الذاتي للآلة المبني على البيانات المعرفة، والتعلم المبني على تسميات زائفة وهو ما نسميه التعلم غير المشرف. ومع ذلك، يؤدي التفاعل بين التعلم الذاتي والتعلم شبه المشرف إلى ثلاث تحديات أساسية. استخدام التسميات الزائفة يؤدي الى انتاج ميزات عشوائية وغير موثوقة. بينما محاولة التوازي بين التعلم الذاتي والتعلم شبه المشرف يؤدي الى انجراف الميزات الموثوقة الموجهة نحو التجمع علاوة على ذلك، قد يسبب الانتقال من التعلم الذاتي إلى التعلم شبه المشرف الى التواء المتشعبات الكامنة المنحنية. بالإضافة إلى ذلك، تشكل تعقيدات الهياكل الرسومية الجذرية عائقًا كبيرًا أمام هذه النهج مع نمو البيانات وزيادة ارتباطها، يزداد متطلبات الحوسبة لمعالجة وتحليل هذه الرسوم بشكل هائل. وعلاوة على ذلك، يعرض البعد العالي والطبيعة الغير منتظمة للبيانات الرسومية تحديات كبيرة لخوارزميات التعلم الآلي، مما يزيد من مشكلات القابلية للتطوير وانخفاض الأداء.

من أجل معالجة التحديات التي تواجه نماذج التعلم العميق والخاص بالأشكال، اقترحت الأطروحة استراتيجية جديدة للتعلم العميق تحتوي على نموذج خاص بالتعلم العميق باستخدام الاشراف الذاتي ونموذج آخر يدمج النموذج الأول بالهياكل الرسومية باستخدام تقنية التنقية للبيانات. حيث يهدف النموذج الجديد الى معالجة القيود الموجودة في النماذج الحالية للتجميع العميق فيما يتعلق بعشوائية الميزات وانجراف الميزات، والتواء

الميزات. من خلال التعرف على هذه القيود ومواجهتها بشكل مباشر، يهدف نهجنا إلى فتح الطريق لمنهجيات

تجميع عميقة أكثر فعالية وكفاءة قادرة على التعامل مع مجموعات بيانات متنوعة، بما في ذلك البيانات

الصورية والهياكل الرسومية المعقدة للتحقق من إمكانية تطبيق النماذج المقترحة، تم إجراء تجارب واسعة

النطاق الجزء الأول من التجارب ركز على مجموعات البيانات المعيارية الخاصة بالصور. وهي ست

مجموعات وتم اختبارها ومقارنة النموذج المقترح مع ست نماذج معيارية خاصة بالتعلم العميق. اما الجزء الثاني من التجارب، فقد تم على أربع مجموعات بيانات خاصة بالأشكال الرسومية، وتم مقارنتها بالست نماذج الخاصة بالتجميع العميق. أظهرت النتائج التي تم الحصول عليها قابلية التطبيق الفائقة للنماذج الجديدة. على

وجه التحديد، تم الوصول إلى أفضل النتائج في جميع التجارب من خلال النماذج المقترحة.