Document
A Hybrid Machine Learning Model for Predicting Customer's Response in Bank Telemarketing Campaign Using Extra Tree and Voting Classifier
Linked Agent
Hammad, Mustafa, Thesis advisor
Date Issued
2022
Language
English
Extent
[3], 10, 72, [3], pages
Place of institution
Sakhir, Bahrain
Thesis Type
Thesis (Master)
Institution
"""University of Bahrain, College of Science, Department of Postgraduate Programs
English Abstract
Abstract :
The banking industry has been witnessing fierce competition recently which made it necessary for banks and financial institutions to shift from conventional methods to digital and online that are backed up and guided by data mining and machine learning techniques. As for marketing for various banking products, the banking industry has shifted from personal individual visits to telemarketing to lower costs and achieve better results. To make their marketing campaigns less costly and more effective, banks have sought ways to avoid contacting customers who are less likely to opt for the marketed banking product or service. This thesis aims to provide banks and financial institutions with a data mining solution to help them in identifying the potential customers and filter out customers who are unlikely to buy the product or service. The proposed model predicts the customer's response to the telemarketing campaign using an ensemble classifier that is based on hybrid machine learning models. The ensemble classifier uses personal information, financial status of the clients, and the history of the previous telemarketing campaign conducted through telemarketing to the customer. A thorough Exploratory Data Analysis (EDA) is also performed to identify dataset problems and give useful insights into key customer attributes that can affect their subscription/non- subscription to a product. Then pre-processing of data is conducted using standardization, encoding categorical attributes, selecting features based on correlation and importance, and removal of model biasness by catering to the problem of class imbalance in the dataset. Afterwards, several classical machine learning models including Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Support Victor Machine (SVM), Naïve Bayes (NB), and K-Nearest Neighbour (KNN) are trained on the dataset to be used as a base line for the proposed ensemble model. Then the Ensemble Voting Classifier, based on the Extremely Randomized Tree hybrid model, was used to predict the customer's response. The accuracy rate of the proposed Ensemble Voting Classifier reached 95.86%, slightly more accurate than the Extra Tree Classifier (95.58%), the RF (94.02%), and DT (92.80%). Compared to the results of the other tested hybrid and traditional models, the proposed Ensemble Voting Classifier is considered the most accurate model in identifying the customers with the highest subscription likelihood.
Arabic Abstract
الملخص :
وتشهد الصناعة المصرفية منافسة شرسة في الآونة الأخيرة مما جعل من الضروري على البنوك والمؤسسات المالية التحول من الأساليب التقليدية إلى الأساليب الرقمية وعبر الإنترنت المدعومة والموجهة بتقنيات استخراج البيانات والتعلم الآلي. أما بالنسبة لتسويق المنتجات المصرفية المختلفة، فقد تحولت الصناعة المصرفية من الزيارات الفردية الشخصية إلى التسويق عبر الهاتف لخفض التكاليف وتحقيق نتائج أفضل. ولجعل حملاتها التسويقية أقل تكلفة وأكثر فعالية، سعت البنوك إلى إيجاد طرق لتجنب الاتصال بالعملاء الذين من غير المرجح أن يختاروا المنتج أو الخدمة المصرفية المسوقة. تهدف هذه الأطروحة إلى تزويد البنوك والمؤسسات المالية بحل استخراج البيانات لمساعدتهم في تحديد العملاء المحتملين وتصفية العملاء الذين من غير المرجح أن يشتروا المنتج أو الخدمة. يتنبأ النموذج المقترح باستجابة العميل لحملة التسويق عبر الهاتف باستخدام مصنف مجمع يعتمد على نماذج التعلم الآلي الهجين. يستخدم مصنف المجموعة المعلومات الشخصية والوضع المالي للعملاء وتاريخ حملة التسويق عبر الهاتف السابقة التي تم إجراؤها من خلال التسويق عبر الهاتف للعميل. يتم أيضًا إجراء تحليل شامل للبيانات الاستكشافية (EDA) لتحديد مشكلات مجموعة البيانات وإعطاء رؤى مفيدة حول سمات العملاء الرئيسية التي يمكن أن تؤثر على اشتراكهم/عدم اشتراكهم في المنتج. ثم يتم إجراء المعالجة المسبقة للبيانات باستخدام التوحيد، وترميز السمات الفئوية، واختيار الميزات على أساس الارتباط والأهمية، وإزالة تحيز النموذج من خلال معالجة مشكلة عدم التوازن الطبقي في مجموعة البيانات. بعد ذلك، يتم تدريب العديد من نماذج التعلم الآلي الكلاسيكية بما في ذلك الانحدار اللوجستي (LR)، وشجرة القرار (DT)، والغابات العشوائية (RF)، ودعم فيكتور ماشين (SVM)، وسذاجة بايز (NB)، وK-Nearest Neighbor (KNN) على مجموعة البيانات التي سيتم استخدامها كخط أساسي لنموذج المجموعة المقترح. ثم تم استخدام مصنف تصويت المجموعة، استنادًا إلى نموذج الشجرة الهجينة العشوائية للغاية، للتنبؤ باستجابة العميل. وصل معدل دقة مصنف التصويت الجماعي المقترح إلى 95.86%، وهو أكثر دقة قليلاً من مصنف الشجرة الإضافية (95.58%)، وRF (94.02%)، وDT (92.80%). وبالمقارنة مع نتائج النماذج الهجينة والتقليدية الأخرى التي تم اختبارها، يعتبر نظام Ensemble Voting Classifier المقترح هو النموذج الأكثر دقة في تحديد العملاء ذوي احتمالية الاشتراك الأعلى.
وتشهد الصناعة المصرفية منافسة شرسة في الآونة الأخيرة مما جعل من الضروري على البنوك والمؤسسات المالية التحول من الأساليب التقليدية إلى الأساليب الرقمية وعبر الإنترنت المدعومة والموجهة بتقنيات استخراج البيانات والتعلم الآلي. أما بالنسبة لتسويق المنتجات المصرفية المختلفة، فقد تحولت الصناعة المصرفية من الزيارات الفردية الشخصية إلى التسويق عبر الهاتف لخفض التكاليف وتحقيق نتائج أفضل. ولجعل حملاتها التسويقية أقل تكلفة وأكثر فعالية، سعت البنوك إلى إيجاد طرق لتجنب الاتصال بالعملاء الذين من غير المرجح أن يختاروا المنتج أو الخدمة المصرفية المسوقة. تهدف هذه الأطروحة إلى تزويد البنوك والمؤسسات المالية بحل استخراج البيانات لمساعدتهم في تحديد العملاء المحتملين وتصفية العملاء الذين من غير المرجح أن يشتروا المنتج أو الخدمة. يتنبأ النموذج المقترح باستجابة العميل لحملة التسويق عبر الهاتف باستخدام مصنف مجمع يعتمد على نماذج التعلم الآلي الهجين. يستخدم مصنف المجموعة المعلومات الشخصية والوضع المالي للعملاء وتاريخ حملة التسويق عبر الهاتف السابقة التي تم إجراؤها من خلال التسويق عبر الهاتف للعميل. يتم أيضًا إجراء تحليل شامل للبيانات الاستكشافية (EDA) لتحديد مشكلات مجموعة البيانات وإعطاء رؤى مفيدة حول سمات العملاء الرئيسية التي يمكن أن تؤثر على اشتراكهم/عدم اشتراكهم في المنتج. ثم يتم إجراء المعالجة المسبقة للبيانات باستخدام التوحيد، وترميز السمات الفئوية، واختيار الميزات على أساس الارتباط والأهمية، وإزالة تحيز النموذج من خلال معالجة مشكلة عدم التوازن الطبقي في مجموعة البيانات. بعد ذلك، يتم تدريب العديد من نماذج التعلم الآلي الكلاسيكية بما في ذلك الانحدار اللوجستي (LR)، وشجرة القرار (DT)، والغابات العشوائية (RF)، ودعم فيكتور ماشين (SVM)، وسذاجة بايز (NB)، وK-Nearest Neighbor (KNN) على مجموعة البيانات التي سيتم استخدامها كخط أساسي لنموذج المجموعة المقترح. ثم تم استخدام مصنف تصويت المجموعة، استنادًا إلى نموذج الشجرة الهجينة العشوائية للغاية، للتنبؤ باستجابة العميل. وصل معدل دقة مصنف التصويت الجماعي المقترح إلى 95.86%، وهو أكثر دقة قليلاً من مصنف الشجرة الإضافية (95.58%)، وRF (94.02%)، وDT (92.80%). وبالمقارنة مع نتائج النماذج الهجينة والتقليدية الأخرى التي تم اختبارها، يعتبر نظام Ensemble Voting Classifier المقترح هو النموذج الأكثر دقة في تحديد العملاء ذوي احتمالية الاشتراك الأعلى.
Note
Tittle on cover :
نموذج التعلم الآلي الهجين للتنبؤ باستجابة العملاء في حملة البنوك التسويقية عبر الهاتف باستخدام خوارزمية الشجرة الإضافية ومصنف التصويت
نموذج التعلم الآلي الهجين للتنبؤ باستجابة العملاء في حملة البنوك التسويقية عبر الهاتف باستخدام خوارزمية الشجرة الإضافية ومصنف التصويت
Member of
Identifier
https://digitalrepository.uob.edu.bh/id/cce80929-6d27-46d7-bfe1-38756ccc6b6f