وثيقة
Modeling the Accuracy-cost Relationship in Decision Trees
وكيل مرتبط
Zeki, Ahmed M., مشرف الرسالة العلمية
تاريخ النشر
2019
اللغة
الأنجليزية
مدى
[23], 149, [1] pages
مكان المؤسسة
SAHKIR, BAHRAIN
نوع الرسالة الجامعية
Thesis (Master)
الجهه المانحه
UNIVERSITY OF BAHRAIN, College of Information Technology
الملخص الإنجليزي
Abstract :
Decision Trees have been applied widely for classification in many fields such as finance, marketing, engineering, and medical diagnosis. Due to the wide range of applications, it is crucial to fully understand the various aspects of decision trees including the different type of costs associated with the classification task. It is also crucial to understand the relationship between the classifier's accuracy and cost, as balancing the two is a major concern nowadays in many fields such as the medical diagnosis field.
This research explores the way of solving the accuracy/cost trade-off in a decision tree classifier to get a low cost and an accurate classifier. It aims at modeling the relationship between the classification accuracy and the cost in a decision tree and determining the optimal balance between the two that gives a satisfactory accuracy at the lowest possible cost.
During the research, different pruning methods have been utilized to control the level of tree pruning and improve the classification accuracy in a decision tree classifier. Different pruning parameters have to be used carefully as they may lead to noticeable difference in the classifier's performance. Therefore, this research tested various pruning parameters options in the standard decision tree algorithm, and then the Pareto dominance approach was used to select the best setting as it is known for its powerfulness and effectiveness in addressing different data mining problems.
The experimental results indicate the efficiency of using different post-pruning and pre- pruning methods in reducing the average total classification cost significantly with a very slight reduction in the accuracy in some cases. The resulting model between the classification accuracy and the average total cost was proportional inverse. When the proposed solutions compared to the standard decision tree algorithm with its default pruning settings, the reduction in average total classification cost reached 21.14%, 19.79%, and 5.27% in breast cancer, heart disease, and thyroid disease datasets, respectively. The resulting accuracy rate was reduced only by 1.6% in breast cancer dataset. In heart disease dataset, the resulting classification accuracy was increased by 6.68% and the same accuracy rate was obtained in thyroid disease dataset.
الملخص العربي
الملخص :
يتناول البحث دراسة استقصائية لجوانب عديدة تتعلق بمشجرات اتخاذ القرار، فمن ذلك المفاهيم الأولية لمشجرات اتخاذ القرار، والخوارزميات القياسية لإنشائها، بالإضافة إلى التطبيقات المختلفة لهذه المشجرات في التنقيب في البيانات وبخاصة في مجالات التسويق والهندسة والتشخيص الطبي.
كما تناول البحث بشكل تفصيلي التكاليف المرتبطة بمهمة التصنيف في مشجرات اتخاذ القرار وعلاقتها بدقة التصنيف، حيث أن الموازنة بين الاثنين تمثل تحديا كبيرا هذه الأيام في العديد من المجالات كالتشخيص الطبي مع تزايد تطبيقات هذه المشجرات في اتخاذ القرار.
كما ويركز البحث بشكل خاص على إيجاد طريقة للموازنة بين تكلفة ودقة إنشاء مشجرات القرار بغرض الحصول على مصنف دقيق ذو تكلفة منخفضة وذلك عن طريق تمثيل العلاقة بين الاثنين واستخدامها لتحديد التوازن الأمثل بين كليهما.
خلال البحث تم استخدام طرق مختلفة لتقليم مشجرات القرار كما تم استعمال مقاييس مختلفة بعناية تامة إذ أنها يمكن أن تحدث اختلافاً ملحوظاً في أداء المصنف. وقد تم اختيار الإعدادات المثلى لتقليم المصنفات المنشئة باستخدام خوارزمية القياسية لبناء مشجرات القرار وذلك باستخدام نهج يسمى "هيمنة باريتو" وذلك لما يعرف عن فاعليته في حل المشاكل المرتبطة بالتنقيب عن البيانات.
تشير النتائج التجريبية إلى كفاءة استخدام أساليب التقليم المختلفة لتقليل متوسط إجمالي تكاليف التصنيف بشكل ملحوظ مع انخفاض طفيف في الدقة في بعض الأحيان. كما تشير النتائج إلى وجود علاقة عكسية بين متوسط إجمالي تكاليف التصنيف ودقته. عند مقارنة الحلول المقترحة مع الخوارزمية إنشاء المشجرات القياسية مع إعدادات التقليم الأساسية، أشارت النتائج إلى أن متوسط تكلفة التصنيف الإجمالية قد هبطت بمقدار 21.14، 19.79% و %5.27% في قاعدة بيانات سرطان الثدي وأمراض القلب والغدة الدرقية، على التوالي. كما أنه تم تخفيض معدل الدقة الناتج بنسبة 1.6% فقط في قاعدة بيانات سرطان الثدي. أما في قاعدة بيانات أمراض القلب فقد تم زيادة دقة المصنف الناتجة بنسبة %6.68% وتم الحصول على نفس معدل الدقة في قاعدة بيانات أمراض الغدة الدرقية.
يتناول البحث دراسة استقصائية لجوانب عديدة تتعلق بمشجرات اتخاذ القرار، فمن ذلك المفاهيم الأولية لمشجرات اتخاذ القرار، والخوارزميات القياسية لإنشائها، بالإضافة إلى التطبيقات المختلفة لهذه المشجرات في التنقيب في البيانات وبخاصة في مجالات التسويق والهندسة والتشخيص الطبي.
كما تناول البحث بشكل تفصيلي التكاليف المرتبطة بمهمة التصنيف في مشجرات اتخاذ القرار وعلاقتها بدقة التصنيف، حيث أن الموازنة بين الاثنين تمثل تحديا كبيرا هذه الأيام في العديد من المجالات كالتشخيص الطبي مع تزايد تطبيقات هذه المشجرات في اتخاذ القرار.
كما ويركز البحث بشكل خاص على إيجاد طريقة للموازنة بين تكلفة ودقة إنشاء مشجرات القرار بغرض الحصول على مصنف دقيق ذو تكلفة منخفضة وذلك عن طريق تمثيل العلاقة بين الاثنين واستخدامها لتحديد التوازن الأمثل بين كليهما.
خلال البحث تم استخدام طرق مختلفة لتقليم مشجرات القرار كما تم استعمال مقاييس مختلفة بعناية تامة إذ أنها يمكن أن تحدث اختلافاً ملحوظاً في أداء المصنف. وقد تم اختيار الإعدادات المثلى لتقليم المصنفات المنشئة باستخدام خوارزمية القياسية لبناء مشجرات القرار وذلك باستخدام نهج يسمى "هيمنة باريتو" وذلك لما يعرف عن فاعليته في حل المشاكل المرتبطة بالتنقيب عن البيانات.
تشير النتائج التجريبية إلى كفاءة استخدام أساليب التقليم المختلفة لتقليل متوسط إجمالي تكاليف التصنيف بشكل ملحوظ مع انخفاض طفيف في الدقة في بعض الأحيان. كما تشير النتائج إلى وجود علاقة عكسية بين متوسط إجمالي تكاليف التصنيف ودقته. عند مقارنة الحلول المقترحة مع الخوارزمية إنشاء المشجرات القياسية مع إعدادات التقليم الأساسية، أشارت النتائج إلى أن متوسط تكلفة التصنيف الإجمالية قد هبطت بمقدار 21.14، 19.79% و %5.27% في قاعدة بيانات سرطان الثدي وأمراض القلب والغدة الدرقية، على التوالي. كما أنه تم تخفيض معدل الدقة الناتج بنسبة 1.6% فقط في قاعدة بيانات سرطان الثدي. أما في قاعدة بيانات أمراض القلب فقد تم زيادة دقة المصنف الناتجة بنسبة %6.68% وتم الحصول على نفس معدل الدقة في قاعدة بيانات أمراض الغدة الدرقية.
ملاحظة
Tittle on cover :
الموازنة بين الدقة والتكلفة في بناء مشجرات اتخاذ القرار
الموازنة بين الدقة والتكلفة في بناء مشجرات اتخاذ القرار
المجموعة
المعرف
https://digitalrepository.uob.edu.bh/id/b110bf9a-b935-4583-adf4-5c7f6233bb93