dc.contributor.advisor |
Kurt Ömürlü, İmran |
|
dc.contributor.author |
Varol, Buğra |
|
dc.date.accessioned |
2023-08-31T06:25:17Z |
|
dc.date.available |
2023-08-31T06:25:17Z |
|
dc.date.issued |
2023-09 |
|
dc.date.submitted |
2023-08-01 |
|
dc.identifier.uri |
http://hdl.handle.net/11607/5058 |
|
dc.description.abstract |
Amaç: Bu çalışmanın amacı, türetilmiş yüksek boyutlu verilerde farklı eksik veri değer atama yöntemlerinin eksik verileri en az hata ile tahmin etmeleri ve aşırı öğrenme makineleriyle (ELM) sınıflandırma performansına etkilerinin incelenmesidir.
Gereç ve Yöntem: Çalışmada farklı veri yapılarına, eksik veri oranlarına ve korelasyon düzeylerine göre n=150 gözlemden oluşan iki kategorili bağımlı değişken ve p=500 bağımsız değişkenden oluşan rastgele veriler türetilerek rastgele eksik (MAR) mekanizmalı eksik değerler oluşturuldu. Eksik veri değer atama yöntemlerinden; ortalama, medyan, rastgele, k-en yakın komşu (KNN), rastgele orman ile değer atama (I-RF), sınıflandırma ve regresyon ağaçları tabanlı zincirleme denklemlerle çok değişkenli değer atama (MICE-CART) yöntemlerinin yanı sıra yüksek boyutlu veriler için geliştirilen düzenlileştirilmiş regresyonun doğrudan kullanımı (DURR) ve düzenlileştirilmiş regresyonun dolaylı kullanımı (IURR) yöntemleri ile eksik değerler atandı. 1000 döngü ile yapılan simülasyonlar sonunda yöntemlerin, ELM ile sınıflandırma skorlarının referansa yakınlığına göre eksik değer tahmin performansları değerlendirildi.
Bulgular: Simülasyon bulguları incelendiğinde, uygulanan aşamalı kümeleme analizine göre, değişen eksik oranları ve korelasyon düzeyleri için birbirine yakın performans gösteren yöntemlerin aynı kümede yer aldıkları tespit edildi. Eksik verili değişkenlerin veri setindeki belirli bir değişken seti ile ilişkili olduğu algoritmada, tüm korelasyon düzeyleri için düşük eksik oranlarında I-RF, MICE-CART, DURR, IURR ve bunları takiben KNN yöntemlerinin; yüksek eksik oranlarında ise DURR ve IURR yöntemlerinin referansa yakın ve benzer performans gösterdiği belirlendi. Verilerin tamamen rastgele türetildiği ikinci simülasyon algoritmasında ise tüm korelasyon düzeyleri ve eksik oranları için yöntemlerin performanslarının birbirine yakın olduğu görüldü.
Sonuç: Veriler tamamen rastgele türetildiğinde, çalışmamızda kullanılan yöntemlerin tahmin performansları değişkenler arasındaki ilişkiden ve eksik oranından etkilenmemektedir. Ancak eksik verili değişkenlerin veri setindeki belirli bir değişken seti ile ilişkili olduğu durumlarda, özellikle DURR ve IURR yöntemleri diğer yöntemlere kıyasla daha etkili olmaktadır. Bu yöntemler değişkenler arasındaki ilişkiden ve eksik veri oranındaki değişimden diğer yöntemlere göre daha az etkilenmektedir. |
tr_TR |
dc.description.tableofcontents |
KABUL VE ONAY i
TEŞEKKÜR ii
İÇİNDEKİLER iii
SİMGELER VE KISALTMALAR DİZİNİ vi
ŞEKİLLER DİZİNİ ix
TABLOLAR DİZİNİ xii
ÖZET xiii
ABSTRACT xv
1. GİRİŞ 1
1.1. Tezin Amacı 4
2. GENEL BİLGİLER 5
2.1. Rastgele Eksik Veri Mekanizması 5
2.2. Eksik Veri Değer Atama Yöntemleri 6
2.2.1. Ortalama Değer Atama 7
2.2.2. Medyan Değer Atama 7
2.2.3. Rastgele Değer Atama 7
2.2.4. K-en Yakın Komşu Değer Atama 7
2.2.5. Rastgele Orman ile Değer Atama (I-RF) 9
2.2.5.1. Rastgele Orman (RF) 9
2.2.5.2. Rastgele Orman ile Değer Atama Algoritması 10
2.2.6. Zincirleme Denklemlerle Çok Değişkenli Değer Atama (MICE) 10
2.2.6.1. Sınıflandırma ve Regresyon Ağaçları Tabanlı Zincirleme Denklemlerle Çok Değişkenli Değer Atama (MICE-CART) 13
2.2.6.1.1. Sınıflandırma ve Regresyon Ağaçları (CART) 13
2.2.6.1.2. Sınıflandırma ve Regresyon Ağaçları Tabanlı Zincirleme Denklemlerle Çok Değişkenli Değer Atama Algoritması 14
2.2.6.2. Yüksek Boyutlu Veriler için Geliştirilen Eksik Veri Değer Atama Yöntemleri 15
2.2.6.2.1. Düzenlileştirilmiş Regresyonun Doğrudan Kullanımı (DURR) 16
2.2.6.2.2. Düzenlileştirilmiş Regresyonun Dolaylı Kullanımı (IURR) 17
2.3. Aşırı Öğrenme Makineleri (ELM) 18
2.3.1. Düzleştirilmiş Doğrusal Birim (RELU) Aktivasyon Fonksiyonu 21
2.4. Yöntemlerin Performanslarının Değerlendirmesinde Kullanılan Ölçütler 21
2.4.1. Değer Atama Hata Kareler Ortalaması 21
2.4.2. Dengeli Doğruluk Oranı 22
2.4.3. ROC Eğrisi Altında Kalan Alan 22
2.4.4. Cohen’in Kappa Katsayısı 23
3. GEREÇ VE YÖNTEM 24
3.1. Simülasyon Algoritmaları 24
3.1.1. Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Simülasyon Algoritması 24
3.1.2. Tamamen Rastgele Türetilen Veriler için Simülasyon Algoritması 25
3.2. Değer Atama ve Sınıflandırma Modellerine İlişkin Parametreler 26
3.3. Kullanılan Programlar 27
4. BULGULAR 28
4.1. Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 28
4.1.1. -0,1 ≤ r ≤ 0,1 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 28
4.1.2. -0,5 ≤ r ≤ 0,5 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 37
4.1.3. -0,8 ≤ r ≤ 0,8 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 46
4.2. Tamamen Rastgele Türetilen Veriler için Bulgular 57
4.2.1. Tamamen Rastgele Türetilen Verilerde -0,1 ≤ r ≤ 0,1 Aralığı için Bulgular 57
4.2.2. Tamamen Rastgele Türetilen Verilerde -0,5 ≤ r ≤ 0,5 Aralığı için Bulgular 66
4.2.3. Tamamen Rastgele Türetilen Verilerde -0,8 ≤ r ≤ 0,8 Aralığı için Bulgular 75
5. TARTIŞMA 86
6. SONUÇ VE ÖNERİLER 90
KAYNAKLAR 93 |
tr_TR |
dc.language.iso |
tur |
tr_TR |
dc.publisher |
Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü |
tr_TR |
dc.rights |
info:eu-repo/semantics/embargoedAccess |
tr_TR |
dc.subject |
Aşırı öğrenme makineleri, Eksik veri, Değer atama, Sınıflandırma, Simülasyon |
tr_TR |
dc.title |
Yüksek Boyutlu Verilerde Eksik Veri Değer Atama Yöntemlerinin Sınıflandırma Performansına Etkisinin Simülasyonla Karşılaştırılması |
tr_TR |
dc.title.alternative |
Comparıson The Effects Of Mıssıng Data Imputatıon Methods On Classıfıcatıon Performance In Hıgh Dımensıonal Data Through Sımulatıon |
tr_TR |
dc.type |
doctoralThesis |
tr_TR |
dc.contributor.department |
Aydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü,, Biyoistatistik Anabilim Dalı |
tr_TR |