وثيقة

Machine Learning Approach for Profiling Petroleum Products FTIR Spectrums

مؤلف
وكيل مرتبط
Ksantini, Riadh, مشرف الرسالة العلمية
Hilal, Sawsan, مشرف الرسالة العلمية
تاريخ النشر
2023
اللغة
الأنجليزية
مدى
[12], 74, [30] pages
مكان المؤسسة
SAHKIR, BAHRAIN
نوع الرسالة الجامعية
Thesis (Master)
الجهه المانحه
University of Bahrain, College of Science, Department of Postgraduate Programs
الملخص الإنجليزي
Abstract : The refinement of petroleum products of crude oil constitutes a pivotal aspect of modern society, as these products are extensively utilized across numerous industries and sectors. Efficient profiling of petroleum products is of paramount importance, as it plays a crucial role in quality control, environmental protection, and adherence to the ever-evolving market demands. This study has the potential to substantially influence the oil-based industry through its nuanced profiling of five petroleum products, including Diesel, Kerosene, Gasoline, Fuel, and Lube Base Oil. For profiling petroleum products through Fourier Transform Infrared (FTIR) data, this study implements a cutting-edge machine learning (ML) methodology, specifically an ensemble of one-class classifiers (OCCs). The OCCs can overcome the imbalanced issue, class overlap, in-sample noise, and outlier identification. Six OCCs were compared, and each consisted of a different base classifier, which are One-class Support Vector Machines (OCSVM), Gaussian Mixture Models (GMM), Isolation Forest (IF), Principal Component Analysis (PCA), Local Outlier Factor (LOF), and K-Nearest Neighbor (KNN). The OCCs were validated against Artificial Neural Networks (ANN). The accuracy results indicate that the GMM-based ensemble achieved the highest performance across all evaluation metrics, followed by OCSVM-based and LOF-based ensembles with 0.936, IF-based ensemble with 0.908, KNN-based ensemble with 0.899, and PCA-based ensemble with 0.871. Each of the ensembles outperforms the ANN classifier, which struggled with imbalanced data, achieving an accuracy of 0.441. Some of the used methods are sensitive to high dimensional data, therefore the experiments were also done with dimension reduced FTIR data using an optimized Autoencoder. The results showed a huge drop in the performance of OCSVM-based, a slight drop for GMM-based, PCA-based, and IF-based OCCs, and remained the same for LOF-based and KNN- based. This study empowers ML for important implications for the oil industry, as it provides versatile, robust, and effective maneuvers for employing it for profiling petroleum products. The results of this study provide valuable insight into the strengths and weaknesses of the different OCCs that may assist practitioners in selecting the most appropriate classifier for their specific problem.
الملخص العربي
الملخص :

تشكل تكرير منتجات النفط الخام جانبا حيويًا في المجتمع الحديث، حيث يتم استخدام هذه المنتجات على نطاق واسع في العديد من الصناعات والقطاعات. ولذلك فإن الإجراء الفعال لتحليل منتجات النفط هو أمر حاسم للغاية، حيث يلعب دورا حاسمًا في مراقبة الجودة وحماية البيئة والالتزام بمتطلبات السوق المتطورة باستمرار.

هذه الدراسة لديها القدرة على التأثير بشكل كبير على صناعة النفط من خلال التعرف الدقيق على خمسة منتجات بترولية ، بما في ذلك الديزل والكيروسين والبنزين والوقود وزيت اللوب الأساسي. لتحليل المنتجات البترولية من خلال البيانات الإشعاعية للتحويل الفوريي للتحويل (FTIR) ، تنفذ هذه الدراسة منهجية تعلم الآلة الحديثة (ML) وتحديدًا مجموعة من المصنفات من فئة واحدة (OCCs). يمكن لل OCCs التغلب على مشكلة عدم التوازن وتداخل الفئات وضوضاء العينات وتحديد القيم الشاذة. تم مقارنة ستة مصنفات من فئة واحدة ، وكان لكل منها مصنف أساسي مختلف ، وهي دعم أقلية الفصل الخطي الدعمي (OCSVM)، نماذج خليط غاوسي (GMM)، غابات العزلة (IF)، تحليل العناصر الرئيسية (PCA)، عامل الخطأ المحلي (LOF)، الجار الأقرب (KNN). تم التحقق من OCCS مقابل الشبكات العصبية الاصطناعية .(ANN)

تشير نتائج الدقة إلى أن المجموعة التي تعتمد على نماذج الاختلال الخليطية الغوصية (GMM) حققت أعلى أداء عبر جميع مقاييس التقييم، يليها المجموعة التي تعتمد على آلات الدعم النوعية من فئة واحدة (OCSVM) وعامل الضوضاء الشذوذي المحلي (LOF) بدرجة 0.936 و 0.908 على التوالي، والمجموعة التي تعتمد على غابة العزل (IF) بدرجة 0.899 ومجموعة جار القريبين (KNN) بدرجة 0.871 تفوق كل المجموعات المصنف الشبكي العصبي الاصطناعي (ANN) الذي واجه صعوبة في معالجة بيانات غير متوازنة، وتحقيق دقة بنسبة .0.441

بعض الأساليب المستخدمة حساسة للبيانات ذات الأبعاد العالية، لذلك تم إجراء التجارب أيضا على بيانات FTIR التي تم تقليل أبعادها باستخدام Autoencoder محسن. أظهرت النتائج انخفاضا كبيرًا في أداء الأسلوب المبني على OCSVM ، وانخفاضا طفيفا في حالة الأساليب المبنية على GMM و PCA و IF ، وظلت النتائج على حالها في حالة الأساليب المبنية على LOF KNN.
ملاحظة
Tittle on cover :
تقنية التعلم الآلي لتحليل طيف الأشعة تحت الحمراء الفورية لتوصيف منتجات البترول
المجموعة
المعرف
https://digitalrepository.uob.edu.bh/id/a135a56d-c1d2-4bec-b2a5-8560e811eaea