Document

Machine Learning Approach to Traffic Accidents Analysis in the Kingdom of Bahrain.

Linked Agent
Zeki, Ahmed Mohammed, Thesis advisor
Date Issued
2023
Language
English
Extent
[2], 16, 98, [3], pages
Place of institution
Sakhir, Bahrain
Thesis Type
Thesis (Master)
Institution
UNIVERSITY OF BAHRAIN, College of Science, Department of Post Graduate Studies
English Abstract
Abstract : The Road Traffic Accidents is one of the main causes that contribute to increase the death rate worldwide. So, many countries including the Kingdom of Bahrain are cooperating to reduce accidents as much as possible. In recent years, the machine learning approach has been used noticeably in many fields such as medicine, economics, education, biology, and transportation. In this study, many classifiers, namely KNN, SVM, DT, RF, and NB have been investigated for their high performance in previous studies to predict the severity of RTAs based on several factors such as accident date, weather, and road type by choosing appropriate parameters for each model. Five real datasets were collected by the statistic section at the general directorate of traffic in the Kingdom of Bahrain. Each dataset refers to a specific year from 2018 to 2022. In addition, After the preparation process with data cleaning, data structuring, and feature engineering, the datasets under investigation combined into 5191 injuries caused by RTAs. The comparison between mentioned classifiers is done by using several evaluation methods which are accuracy, F-measure, recall, precision, and AUC. Interestingly, the classes of the target attribute were imbalanced. For that, the researcher used the imbalanced dataset with over-sampling and under-sampling methods to evaluate the performance of models in these cases. The results of this study were satisfactory. The best classifier with all evaluation methods was achieved with the RF algorithm of 85% for all criteria by using the over- sampling method. Meanwhile, the worst classifier is the NB when the dataset used was imbalanced with a precision of 63%, recall of 10%, F-measure of 10%, and accuracy of 10%. Also, through building all models the class fatal has the highest AUC compared to other classes. It is observed that the over-sampling method outperformed other methods with most models. In addition, the most important features that affect the RTAs are cause type and accident day of week, the least important features with significant differences are road condition and road surface. The results of the research are promising and are expected to be applied by the Bahraini General Directorate of Traffic.
Arabic Abstract
الملخص :

الحوادث المرورية على الطريق تساهم في رفع معدل الوفيات حول العالم. ولهذا السبب فإن الكثير من الدول وبما فيها مملكة البحرين وضعت على عاتقها هدف تقليل الحوادث المرورية قدر الإمكان.

ومن الجدير بالذكر إنه في السنوات الأخيرة تم ملاحظة تطبيق مناهج التعلم الآلي بصورة متزايدة في العديد من المجالات مثل الصحة والتعليم والإقتصاد وعلوم الأحياء والمواصلات. في هذه الدراسة تم استخدام عدة خوارزميات هي أقرب الجيران، والبايزي الساذج، وآلة المتجهات الداعمة، والغابة العشوائية، وشجرة القرار للتنبؤ بشدة الحوادث المرورية على الطريق في مملكة البحرين، وتم ذلك بالاعتماد على عدة سمات مثل تاريخ الحادث الطقس، ونوع الطريق، وقد تم اختيار المعاملات المناسبة لكل خوارزمية.

في هذه الاطروحة تم استخدام خمسة مجموعات من البيانات قد تم الحصول عليها من قسم الإحصاء بالإدارة العامة للمرور المملكة البحرين. وكل مجموعة من البيانات تعود إلى سنة محددة في الفترة بين العام 2018م وحتى العام 2022م. وبعد تحضير هذه البيانات وتنقيحها تم الحصول على 5191 من الإصابات بعد تجميع كل البيانات في قائمة واحدة.

للمقارنة بين الخوارزميات المذكورة تم استخدام عدة أدوات للتقييم وهي: الدقة، والقياس والإستدعاء، والضبط والمساحة تحت المنحنى ومن المثير للإهتمام إن المتغير التابع في هذه الدراسة يحتوي على أصناف غير متوازنة، لذلك عمد الباحث لاستخدام البيانات الأصلية الغير متوازنة بالإضافة إلى طريقة أخذ العينات الناقصة وطريقة أخذ العينات الإضافية من أجل تقييم الخوارزميات وفقا لهذه الحالات.

النتائج التي حققتها هذه الدراسة مرضية جدا، فقد تم التوصل إلى أن أفضل مصنف هو الغابة العشوائية بسبب تحقيق نتائج عالية تصل إلى 85% في جميع أدوات التقييم المستخدمة عبر استخدام طريقة العينات الإضافية. بينما أسوء مصنف تم الحصول عليه هو خوارزمية البايزي الساذج حيث تم استخدام البيانات غير المتوازنة، وكانت نسبة الضبط 63% بينما حصدت جميع أدوات التقييم الأخرى على نسبة 10%. ومن خلال بناء النماذج الخوارزمية تبين أن فئة الموت تمتلك أكبر مساحة تحت المنحنى مقارنة بباقي الفئات وبصورة عامة تم ملاحظة أن نتائج طريقة البيانات الإضافية تكون أفضل من غيرها. علاوة على ذلك فإن أكثر عاملين يؤثران على الحوادث المرورية على الطريق هما سبب الحادث ويوم وقوع الحادث، بينما العوامل الأقل أهمية وباختلاف ملحوظ هما حالة الطريق وسطح الطريق. النتائج التي حققتها هذه الدراسة واعدة ومن المتوقع أن تستفيد منها الإدارة العامة للمرور في مملكة البحرين.
Note
Tittel on cover :
استخدام نهج التعلم الآلي لتحليل الحوادث المرورية في مملكة البحرين
Member of
Identifier
https://digitalrepository.uob.edu.bh/id/813dadda-fc4a-4e4f-a26d-8c434ddb5aa4