Yüksek Boyutlu Verilerde Eksik Veri Değer Atama Yöntemlerinin Sınıflandırma Performansına Etkisinin Simülasyonla Karşılaştırılması

Please use this identifier to cite or link to this item: http://hdl.handle.net/11607/5058

Title:	Yüksek Boyutlu Verilerde Eksik Veri Değer Atama Yöntemlerinin Sınıflandırma Performansına Etkisinin Simülasyonla Karşılaştırılması
Other Titles:	Comparıson The Effects Of Mıssıng Data Imputatıon Methods On Classıfıcatıon Performance In Hıgh Dımensıonal Data Through Sımulatıon
Authors:	Kurt Ömürlü, İmran Varol, Buğra Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü,, Biyoistatistik Anabilim Dalı
Keywords:	Aşırı öğrenme makineleri, Eksik veri, Değer atama, Sınıflandırma, Simülasyon
Issue Date:	Sep-2023
Publisher:	Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü
Abstract:	Amaç: Bu çalışmanın amacı, türetilmiş yüksek boyutlu verilerde farklı eksik veri değer atama yöntemlerinin eksik verileri en az hata ile tahmin etmeleri ve aşırı öğrenme makineleriyle (ELM) sınıflandırma performansına etkilerinin incelenmesidir. Gereç ve Yöntem: Çalışmada farklı veri yapılarına, eksik veri oranlarına ve korelasyon düzeylerine göre n=150 gözlemden oluşan iki kategorili bağımlı değişken ve p=500 bağımsız değişkenden oluşan rastgele veriler türetilerek rastgele eksik (MAR) mekanizmalı eksik değerler oluşturuldu. Eksik veri değer atama yöntemlerinden; ortalama, medyan, rastgele, k-en yakın komşu (KNN), rastgele orman ile değer atama (I-RF), sınıflandırma ve regresyon ağaçları tabanlı zincirleme denklemlerle çok değişkenli değer atama (MICE-CART) yöntemlerinin yanı sıra yüksek boyutlu veriler için geliştirilen düzenlileştirilmiş regresyonun doğrudan kullanımı (DURR) ve düzenlileştirilmiş regresyonun dolaylı kullanımı (IURR) yöntemleri ile eksik değerler atandı. 1000 döngü ile yapılan simülasyonlar sonunda yöntemlerin, ELM ile sınıflandırma skorlarının referansa yakınlığına göre eksik değer tahmin performansları değerlendirildi. Bulgular: Simülasyon bulguları incelendiğinde, uygulanan aşamalı kümeleme analizine göre, değişen eksik oranları ve korelasyon düzeyleri için birbirine yakın performans gösteren yöntemlerin aynı kümede yer aldıkları tespit edildi. Eksik verili değişkenlerin veri setindeki belirli bir değişken seti ile ilişkili olduğu algoritmada, tüm korelasyon düzeyleri için düşük eksik oranlarında I-RF, MICE-CART, DURR, IURR ve bunları takiben KNN yöntemlerinin; yüksek eksik oranlarında ise DURR ve IURR yöntemlerinin referansa yakın ve benzer performans gösterdiği belirlendi. Verilerin tamamen rastgele türetildiği ikinci simülasyon algoritmasında ise tüm korelasyon düzeyleri ve eksik oranları için yöntemlerin performanslarının birbirine yakın olduğu görüldü. Sonuç: Veriler tamamen rastgele türetildiğinde, çalışmamızda kullanılan yöntemlerin tahmin performansları değişkenler arasındaki ilişkiden ve eksik oranından etkilenmemektedir. Ancak eksik verili değişkenlerin veri setindeki belirli bir değişken seti ile ilişkili olduğu durumlarda, özellikle DURR ve IURR yöntemleri diğer yöntemlere kıyasla daha etkili olmaktadır. Bu yöntemler değişkenler arasındaki ilişkiden ve eksik veri oranındaki değişimden diğer yöntemlere göre daha az etkilenmektedir.
URI:	http://hdl.handle.net/11607/5058
Appears in Collections:	Doktora

Files in This Item:

File	Description	Size	Format
BUĞRA VAROL TEZ 3008-yükleme.pdf		2.69 MB	Adobe PDF	View/Open

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets