Please use this identifier to cite or link to this item: http://hdl.handle.net/11607/5058
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorKurt Ömürlü, İmran-
dc.contributor.authorVarol, Buğra-
dc.date.accessioned2023-08-31T06:25:17Z-
dc.date.available2023-08-31T06:25:17Z-
dc.date.issued2023-09-
dc.date.submitted2023-08-01-
dc.identifier.urihttp://hdl.handle.net/11607/5058-
dc.description.abstractAmaç: Bu çalışmanın amacı, türetilmiş yüksek boyutlu verilerde farklı eksik veri değer atama yöntemlerinin eksik verileri en az hata ile tahmin etmeleri ve aşırı öğrenme makineleriyle (ELM) sınıflandırma performansına etkilerinin incelenmesidir. Gereç ve Yöntem: Çalışmada farklı veri yapılarına, eksik veri oranlarına ve korelasyon düzeylerine göre n=150 gözlemden oluşan iki kategorili bağımlı değişken ve p=500 bağımsız değişkenden oluşan rastgele veriler türetilerek rastgele eksik (MAR) mekanizmalı eksik değerler oluşturuldu. Eksik veri değer atama yöntemlerinden; ortalama, medyan, rastgele, k-en yakın komşu (KNN), rastgele orman ile değer atama (I-RF), sınıflandırma ve regresyon ağaçları tabanlı zincirleme denklemlerle çok değişkenli değer atama (MICE-CART) yöntemlerinin yanı sıra yüksek boyutlu veriler için geliştirilen düzenlileştirilmiş regresyonun doğrudan kullanımı (DURR) ve düzenlileştirilmiş regresyonun dolaylı kullanımı (IURR) yöntemleri ile eksik değerler atandı. 1000 döngü ile yapılan simülasyonlar sonunda yöntemlerin, ELM ile sınıflandırma skorlarının referansa yakınlığına göre eksik değer tahmin performansları değerlendirildi. Bulgular: Simülasyon bulguları incelendiğinde, uygulanan aşamalı kümeleme analizine göre, değişen eksik oranları ve korelasyon düzeyleri için birbirine yakın performans gösteren yöntemlerin aynı kümede yer aldıkları tespit edildi. Eksik verili değişkenlerin veri setindeki belirli bir değişken seti ile ilişkili olduğu algoritmada, tüm korelasyon düzeyleri için düşük eksik oranlarında I-RF, MICE-CART, DURR, IURR ve bunları takiben KNN yöntemlerinin; yüksek eksik oranlarında ise DURR ve IURR yöntemlerinin referansa yakın ve benzer performans gösterdiği belirlendi. Verilerin tamamen rastgele türetildiği ikinci simülasyon algoritmasında ise tüm korelasyon düzeyleri ve eksik oranları için yöntemlerin performanslarının birbirine yakın olduğu görüldü. Sonuç: Veriler tamamen rastgele türetildiğinde, çalışmamızda kullanılan yöntemlerin tahmin performansları değişkenler arasındaki ilişkiden ve eksik oranından etkilenmemektedir. Ancak eksik verili değişkenlerin veri setindeki belirli bir değişken seti ile ilişkili olduğu durumlarda, özellikle DURR ve IURR yöntemleri diğer yöntemlere kıyasla daha etkili olmaktadır. Bu yöntemler değişkenler arasındaki ilişkiden ve eksik veri oranındaki değişimden diğer yöntemlere göre daha az etkilenmektedir.tr_TR
dc.description.tableofcontentsKABUL VE ONAY i TEŞEKKÜR ii İÇİNDEKİLER iii SİMGELER VE KISALTMALAR DİZİNİ vi ŞEKİLLER DİZİNİ ix TABLOLAR DİZİNİ xii ÖZET xiii ABSTRACT xv 1. GİRİŞ 1 1.1. Tezin Amacı 4 2. GENEL BİLGİLER 5 2.1. Rastgele Eksik Veri Mekanizması 5 2.2. Eksik Veri Değer Atama Yöntemleri 6 2.2.1. Ortalama Değer Atama 7 2.2.2. Medyan Değer Atama 7 2.2.3. Rastgele Değer Atama 7 2.2.4. K-en Yakın Komşu Değer Atama 7 2.2.5. Rastgele Orman ile Değer Atama (I-RF) 9 2.2.5.1. Rastgele Orman (RF) 9 2.2.5.2. Rastgele Orman ile Değer Atama Algoritması 10 2.2.6. Zincirleme Denklemlerle Çok Değişkenli Değer Atama (MICE) 10 2.2.6.1. Sınıflandırma ve Regresyon Ağaçları Tabanlı Zincirleme Denklemlerle Çok Değişkenli Değer Atama (MICE-CART) 13 2.2.6.1.1. Sınıflandırma ve Regresyon Ağaçları (CART) 13 2.2.6.1.2. Sınıflandırma ve Regresyon Ağaçları Tabanlı Zincirleme Denklemlerle Çok Değişkenli Değer Atama Algoritması 14 2.2.6.2. Yüksek Boyutlu Veriler için Geliştirilen Eksik Veri Değer Atama Yöntemleri 15 2.2.6.2.1. Düzenlileştirilmiş Regresyonun Doğrudan Kullanımı (DURR) 16 2.2.6.2.2. Düzenlileştirilmiş Regresyonun Dolaylı Kullanımı (IURR) 17 2.3. Aşırı Öğrenme Makineleri (ELM) 18 2.3.1. Düzleştirilmiş Doğrusal Birim (RELU) Aktivasyon Fonksiyonu 21 2.4. Yöntemlerin Performanslarının Değerlendirmesinde Kullanılan Ölçütler 21 2.4.1. Değer Atama Hata Kareler Ortalaması 21 2.4.2. Dengeli Doğruluk Oranı 22 2.4.3. ROC Eğrisi Altında Kalan Alan 22 2.4.4. Cohen’in Kappa Katsayısı 23 3. GEREÇ VE YÖNTEM 24 3.1. Simülasyon Algoritmaları 24 3.1.1. Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Simülasyon Algoritması 24 3.1.2. Tamamen Rastgele Türetilen Veriler için Simülasyon Algoritması 25 3.2. Değer Atama ve Sınıflandırma Modellerine İlişkin Parametreler 26 3.3. Kullanılan Programlar 27 4. BULGULAR 28 4.1. Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 28 4.1.1. -0,1 ≤ r ≤ 0,1 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 28 4.1.2. -0,5 ≤ r ≤ 0,5 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 37 4.1.3. -0,8 ≤ r ≤ 0,8 Aralığına göre Rastgele Bir Değişken Setinin Doğrusal Kombinasyonundan Türetilen Eksik Verili Değişkenler için Bulgular 46 4.2. Tamamen Rastgele Türetilen Veriler için Bulgular 57 4.2.1. Tamamen Rastgele Türetilen Verilerde -0,1 ≤ r ≤ 0,1 Aralığı için Bulgular 57 4.2.2. Tamamen Rastgele Türetilen Verilerde -0,5 ≤ r ≤ 0,5 Aralığı için Bulgular 66 4.2.3. Tamamen Rastgele Türetilen Verilerde -0,8 ≤ r ≤ 0,8 Aralığı için Bulgular 75 5. TARTIŞMA 86 6. SONUÇ VE ÖNERİLER 90 KAYNAKLAR 93tr_TR
dc.language.isoturtr_TR
dc.publisherAydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/embargoedAccesstr_TR
dc.subjectAşırı öğrenme makineleri, Eksik veri, Değer atama, Sınıflandırma, Simülasyontr_TR
dc.titleYüksek Boyutlu Verilerde Eksik Veri Değer Atama Yöntemlerinin Sınıflandırma Performansına Etkisinin Simülasyonla Karşılaştırılmasıtr_TR
dc.title.alternativeComparıson The Effects Of Mıssıng Data Imputatıon Methods On Classıfıcatıon Performance In Hıgh Dımensıonal Data Through Sımulatıontr_TR
dc.typedoctoralThesistr_TR
dc.contributor.departmentAydın Adnan Menderes Üniversitesi, Sağlık Bilimleri Enstitüsü,, Biyoistatistik Anabilim Dalıtr_TR
Appears in Collections:Doktora

Files in This Item:
File Description SizeFormat 
BUĞRA VAROL TEZ 3008-yükleme.pdf2.69 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.