Please use this identifier to cite or link to this item: http://hdl.handle.net/11607/4635
Title: Dengesiz veri setlerinde farklı dengeleme algoritmalarının optimum denge oranlarının sınıflandırma ve regresyon ağaçları yöntemi ile incelenmesi: simülasyon çalışması
Other Titles: Examining the optimum balance ratios of different balancing algorithms in imbalanced data sets by classification and regression trees: simulation study
Authors: Türe, Mevlüt
Öztürk, Hakan
Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü, Tıp Fakültesi, Temel Tıp Bilimleri, Biyoistatistik Anabilim Dalı
Keywords: Dengesiz veri
Topluluk öğrenme
Sınıflandırma ve regresyon ağaçları
Optimal sınıf dağılımı
Simülasyon
Imbalanced data, Ensemble learning, Classification and regression trees, Optimal class distribution, Simulation
Issue Date: 2022
Publisher: Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü
Citation: Öztürk H. (2022). Dengesiz veri setlerinde farklı dengeleme algoritmalarının optimum denge oranlarının sınıflandırma ve regresyon ağaçları yöntemi ile incelenmesi: simülasyon çalışması. (Yayımlanmamış Doktora Tezi). Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü, Aydın.
Abstract: Amaç: Bu çalışmada, orijinal simülasyon senaryoları ışığında, farklı korelasyon yapıları, değişken sayıları ve azınlık sınıfı prevalans oranları altında yedi farklı dengeleme algoritması için optimal azınlık-çoğunluk sınıfı dengeleme oranlarının sınıflandırma ve regresyon ağaçları (CART) ile incelenmesi amaçlandı. Gereç ve Yöntem: Azınlık sınıfı prevalans oranları, korelasyon yapıları ve değişken sayıları dikkate alınarak toplum veri setlerinden örneklenen dengesiz veri setleri, rastgele aşırı örnekleme (ROS), sentetik azınlık aşırı örnekleme tekniği (SMOTE), çoğunluk ağırlıklı azınlık aşırı örnekleme tekniği (MWMOTE), adaptif sentetik örnekleme yaklaşımı (ADASYN), rastgele alt örnekleme (RUS), rastgele alt boosting (RUSBoost) ve alt bagging (UB) algoritmaları ile kademeli olarak dengelendi ve her kademede CART yöntemi ile toplum parametreleri tahmin edildi. Bulgular: Tüm simülasyon senaryolarında, dengeleme algoritmalarının, sınıflandırma başarısını artırdığı gözlendi. Bu artışın, dengeleme oranının artmasıyla paralel olduğu ve tüm dengeleme algoritmalarının en yüksek alıcı işlem karakteristiği (ROC) eğrisi altında kalan alan (AUC) değerine genellikle tam denge (50:50) durumunda ulaştığı gözlendi. Ayrıca, yapılan sınıflandırmalarda, en yüksek AUC değerleri, RUSBoost ve UB algoritmaları ile dengelenen veri setlerinde elde edildi. Türetilen toplum veri setlerinden hesaplanan AUC değerleri referans alınarak değerlendirilen optimal azınlık-çoğunluk sınıfı denge oranları, kullanılan dengeleme algoritmalarına bağlı olarak farklılık gösterdi. Bununla birlikte, değişkenler arasındaki korelasyon yapısı, bağımsız değişken sayısı ve azınlık sınıfı prevalans oranları da dengeleme algoritmaları için xii optimal azınlık-çoğunluk sınıfı denge oranlarını etkiledi. Değişkenler arasındaki ilişki düzeyinin ve bağımsız değişken sayısının artışına paralel olarak dengeleme algoritmaları ile dengelenen veri setlerinin sınıflandırılmasından elde edilen AUC değerlerinin toplum veri setlerinden elde edilen AUC değerlerine yakınsama oranı arttı. Sonuç: Sonuç olarak, RUSBoost ve UB algoritmalarının simülasyon senaryolarının çoğunda belirli denge oranlarından sonra parametre değerinden istatistiksel olarak yüksek sonuçlar ürettiği gözlendi. Hem ilişki düzeyindeki hem de bağımsız değişken sayısındaki artış RUSBoost ve UB algoritmalarının parametre değerinden yüksek sonuçlar üretme eğilimini artırdı. ROS, SMOTE, MWMOTE, ADASYN algoritmalarının, simülasyon senaryolarının çoğunda, RUS algoritmasının ise simülasyon senaryolarının hiçbirinde parametre değerinden istatistiksel olarak yüksek sonuçlar üretmediği gözlendi.
Objective: In this study, it was aimed to examine the optimal minority-majority class balancing ratios for seven different balancing algorithms by classification and regression trees (CART) under different correlation structures, variable numbers, and minority class prevalence rates in the light of original simulation scenarios. Material and Methods: Imbalanced datasets were sampled from population datasets were derived by considering minority class prevalence rates, correlation structures, and variable numbers. Imbalanced datasets were gradually balanced with random oversampling (ROS), synthetic minority over-sampling technique (SMOTE), majority weighted minority oversampling technique (MWMOTE), adaptive synthetic sampling approach (ADASYN), random undersampling (RUS), random under boosting (RUSBoost), and under bagging (UB) algorithms and classified by CART method at each step. Results: In all simulation scenarios, classification performance gradually increased in data sets that were gradually balanced with balancing algorithms. This increase is in parallel with the increase in the balancing ratio, and all balancing algorithms reached the highest area under the receiver operation characteristic (ROC) curve (AUC) value generally at fully balanced (50:50). In addition, the highest AUC values were obtained in the datasets balanced with the RUSBoost and UB algorithms. Optimal minority-majority class balance ratios, evaluated regarding the AUC values calculated from the derived population datasets, differed depending on the balancing algorithms used. However, the correlation structure between the variables, the number of independent variables, and the minority class prevalence rates also affected the optimal minoritymajority class balance ratios for the balancing algorithms. In parallel with the increase in the level of the relationship between the variables and the number of independent variables, the rate of convergence of the AUC values obtained from the classification of the data sets balanced with the balancing algorithms to the AUC values obtained from the population datasets increased. Conclusion: In conclusion, statistically higher results than the population parameters were obtained when certain balancing ratios were exceeded in the datasets balanced with the RUBoost and UB algorithms in most of the simulation scenarios. The increase in both the level of correlation and the number of independent variables increased the tendency of RUSBoost and UB algorithms to produce results higher than the population parameters. ROS, SMOTE, MWMOTE, ADASYN algorithms produced statistically higher results than population parameters only for some scenarios with four and five independent variables where the correlation between variables was high. In none of the simulation scenarios, the RUS algorithm did not produce statistically higher results than the population parameters.
URI: http://hdl.handle.net/11607/4635
Appears in Collections:Doktora



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.