eArşiv@Adu

Yüksek Boyutlu Verilerde Eksik Veri Değer Atama Yöntemlerinin Sınıflandırma Performansına Etkisinin Simülasyonla Karşılaştırılması

Basit öğe kaydını göster

dc.contributor.advisor Kurt Ömürlü, İmran
dc.contributor.author Varol, Buğra
dc.date.accessioned 2023-08-31T06:25:17Z
dc.date.available 2023-08-31T06:25:17Z
dc.date.issued 2023-09
dc.date.submitted 2023-08-01
dc.identifier.uri http://hdl.handle.net/11607/5058
dc.description.abstract Amaç: Bu çalışmanın amacı, türetilmiş yüksek boyutlu verilerde farklı eksik veri değer atama yöntemlerinin eksik verileri en az hata ile tahmin etmeleri ve aşırı öğrenme makineleriyle (ELM) sınıflandırma performansına etkilerinin incelenmesidir. Gereç ve Yöntem: Çalışmada farklı veri yapılarına, eksik veri oranlarına ve korelasyon düzeylerine göre n=150 gözlemden oluşan iki kategorili bağımlı değişken ve p=500 bağımsız değişkenden oluşan rastgele veriler türetilerek rastgele eksik (MAR) mekanizmalı eksik değerler oluşturuldu. Eksik veri değer atama yöntemlerinden; ortalama, medyan, rastgele, k-en yakın komşu (KNN), rastgele orman ile değer atama (I-RF), sınıflandırma ve regresyon ağaçları tabanlı zincirleme denklemlerle çok değişkenli değer atama (MICE-CART) yöntemlerinin yanı sıra yüksek boyutlu veriler için geliştirilen düzenlileştirilmiş regresyonun doğrudan kullanımı (DURR) ve düzenlileştirilmiş regresyonun dolaylı kullanımı (IURR) yöntemleri ile eksik değerler atandı. 1000 döngü ile yapılan simülasyonlar sonunda yöntemlerin, ELM ile sınıflandırma skorlarının referansa yakınlığına göre eksik değer tahmin performansları değerlendirildi. Bulgular: Simülasyon bulguları incelendiğinde, uygulanan aşamalı kümeleme analizine göre, değişen eksik oranları ve korelasyon düzeyleri için birbirine yakın performans gösteren yöntemlerin aynı kümede yer aldıkları tespit edildi. Eksik verili değişkenlerin veri setindeki belirli bir değişken seti ile ilişkili olduğu algoritmada, tüm korelasyon düzeyleri için düşük eksik oranlarında I-RF, MICE-CART, DURR, IURR ve bunları takiben KNN yöntemlerinin; yüksek eksik oranlarında ise DURR ve IURR yöntemlerinin referansa yakın ve benzer performans gösterdiği belirlendi. Verilerin tamamen rastgele türetildiği ikinci simülasyon algoritmasında ise tüm korelasyon düzeyleri ve eksik oranları için yöntemlerin performanslarının birbirine yakın olduğu görüldü. Sonuç: Veriler tamamen rastgele türetildiğinde, çalışmamızda kullanılan yöntemlerin tahmin performansları değişkenler arasındaki ilişkiden ve eksik oranından etkilenmemektedir. Ancak eksik verili değişkenlerin veri setindeki belirli bir değişken seti ile ilişkili olduğu durumlarda, özellikle DURR ve IURR yöntemleri diğer yöntemlere kıyasla daha etkili olmaktadır. Bu yöntemler değişkenler arasındaki ilişkiden ve eksik veri oranındaki değişimden diğer yöntemlere göre daha az etkilenmektedir. tr_TR
dc.description.tableofcontents KABUL VE ONAY i TEŞEKKÜR ii İÇİNDEKİLER iii SİMGELER VE KISALTMALAR DİZİNİ vi ŞEKİLLER DİZİNİ ix TABLOLAR DİZİNİ xii ÖZET xiii ABSTRACT xv 1. GİRİŞ 1 1.1. Tezin Amacı 4 2. GENEL BİLGİLER 5 2.1. Rastgele Eksik Veri Mekanizması 5 2.2. Eksik Veri Değer Atama Yöntemleri 6 2.2.1. Ortalama Değer Atama 7 2.2.2. Medyan Değer Atama 7 2.2.3. Rastgele Değer Atama 7 2.2.4. K-en Yakın Komşu Değer Atama 7 2.2.5. Rastgele Orman ile Değer Atama (I-RF) 9 2.2.5.1. Rastgele Orman (RF) 9 2.2.5.2. Rastgele Orman ile Değer Atama Algoritması 10 2.2.6. Zincirleme Denklemlerle Çok Değişkenli Değer Atama (MICE) 10 2.2.6.1. Sınıflandırma ve Regresyon Ağaçları Tabanlı Zincirleme Denklemlerle Çok Değişkenli Değer Atama (MICE-CART) 13 2.2.6.1.1. Sınıflandırma ve Regresyon Ağaçları (CART) 13 2.2.6.1.2. Sınıflandırma ve Regresyon Ağaçları Tabanlı Zincirleme Denklemlerle Çok Değişkenli Değer Atama Algoritması 14 2.2.6.2. Yüksek Boyutlu Veriler için Geliştirilen Eksik Veri Değer Atama Yöntemleri 15 2.2.6.2.1. Düzenlileştirilmiş Regresyonun Doğrudan Kullanımı (DURR) 16 2.2.6.2.2. Düzenlileştirilmiş Regresyonun Dolaylı Kullanımı (IURR) 17 2.3. Aşırı Öğrenme Makineleri (ELM) 18 2.3.1. Düzleştirilmiş Doğrusal Birim (RELU) Aktivasyon Fonksiyonu 21 2.4. Yöntemlerin Performanslarının Değerlendirmesinde Kullanılan Ölçütler 21 2.4.1. Değer Atama Hata Kareler Ortalaması 21 2.4.2. Dengeli Doğruluk Oranı 22 2.4.3. ROC Eğrisi Altında Kalan Alan 22 2.4.4. Cohen’in Kappa Katsayısı 23 3. GEREÇ VE YÖNTEM 24 3.1. Simülasyon Algoritmaları 24 3.1.1. Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Simülasyon Algoritması 24 3.1.2. Tamamen Rastgele Türetilen Veriler için Simülasyon Algoritması 25 3.2. Değer Atama ve Sınıflandırma Modellerine İlişkin Parametreler 26 3.3. Kullanılan Programlar 27 4. BULGULAR 28 4.1. Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 28 4.1.1. -0,1 ≤ r ≤ 0,1 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 28 4.1.2. -0,5 ≤ r ≤ 0,5 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 37 4.1.3. -0,8 ≤ r ≤ 0,8 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 46 4.2. Tamamen Rastgele Türetilen Veriler için Bulgular 57 4.2.1. Tamamen Rastgele Türetilen Verilerde -0,1 ≤ r ≤ 0,1 Aralığı için Bulgular 57 4.2.2. Tamamen Rastgele Türetilen Verilerde -0,5 ≤ r ≤ 0,5 Aralığı için Bulgular 66 4.2.3. Tamamen Rastgele Türetilen Verilerde -0,8 ≤ r ≤ 0,8 Aralığı için Bulgular 75 5. TARTIŞMA 86 6. SONUÇ VE ÖNERİLER 90 KAYNAKLAR 93 tr_TR
dc.language.iso tur tr_TR
dc.publisher Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü tr_TR
dc.rights info:eu-repo/semantics/embargoedAccess tr_TR
dc.subject Aşırı öğrenme makineleri, Eksik veri, Değer atama, Sınıflandırma, Simülasyon tr_TR
dc.title Yüksek Boyutlu Verilerde Eksik Veri Değer Atama Yöntemlerinin Sınıflandırma Performansına Etkisinin Simülasyonla Karşılaştırılması tr_TR
dc.title.alternative Comparıson The Effects Of Mıssıng Data Imputatıon Methods On Classıfıcatıon Performance In Hıgh Dımensıonal Data Through Sımulatıon tr_TR
dc.type doctoralThesis tr_TR
dc.contributor.department Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü,, Biyoistatistik Anabilim Dalı tr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster