eArşiv@Adu

Türkçe dokümanlar için yazar tanıma

Basit öğe kaydını göster

dc.contributor.advisor Aşlıyan, Rıfat
dc.contributor.author Kolyiğit, Özcan
dc.date.accessioned 2015-12-18T10:03:39Z
dc.date.available 2015-12-18T10:03:39Z
dc.date.issued 2013-01-01
dc.date.submitted 2013
dc.identifier.uri http://194.27.38.21/web/catalog/info.php?idx=49145401&idt=1
dc.identifier.uri http://hdl.handle.net/11607/645
dc.description.abstract Günümüzde, yazar tanıma çalışmaları, teknolojinin gelişmesi ve bilginin yaygınlaşması ile ortaya çıkan bir takım sorunlara çözüm üretmek için yapılmaktadır. Bu sorunlardan bazıları yazarı belli olmayan dokümanların yazarlarının belirlenmesi ve yazarının kim olduğundan tam olarak emin olunamayan metinlerin yazarlarının belirlenmesidir. Bu çalışmada, Türkçe dokümanlar için yazar tanıma sistemleri geliştirilmiştir. Sistemlerin eğitilmesinde ve test edilmesinde kullanılmak üzere, gazetelerden seçilen 6 yazara ait köşe yazıları kullanılmıştır. Yazarların 70?er makalesinden oluşan 420 dokümandan oluşan bir derlem hazırlanmıştır. Bu dokümanlardan 20?şer tanesi eğitim için, 50?şer tanesi test için kullanılmıştır. İlk olarak, 6 yazara ait dokümanlar toplanmış, daha sonra her yazara ait 20 doküman birleştirilerek tek bir doküman haline getirilmiştir. Bu şekilde elde edilen 6 doküman için sözcük, gövde, hece ve karakter n-gramlarının öznitelik vektörleri belirlenmiştir. K-En Yakın Komşu algoritması için öznitelik vektörleri belirlenirken her yazar için vektör uzunlukları 120, 180 ve 240 olarak seçilmiş, oluşan öznitelik vektörleri için K-En Yakın Komşu algoritmasıyla test edilmiştir. En başarılı sonuçlar, vektör boyu 120 olduğunda elde edildiğinden diğer metotlar için de vektör boyu 120 olarak kullanılmıştır. Geliştirilen sistemler eğitildikten sonra test edilerek doğruluk ve F-ölçüsü değerlerine göre birbirleriyle karşılaştırılmıştır. tr_TR
dc.description.abstract Today, the studies of author recognition have been made for providing the solutions of the problems which occur by developing and growing of information technology. Some of these problems are to specify the authors who the papers are exactly written by. In this study, some systems about author recognition for Turkish documents have been developed. For generating the systems, we have used the columns which belong to six authors in some newspapers. A corpus which includes totally 420 documents is constructed for training and testing of the systems. Each author has seventy documents. Twenty documents of every author are used for training operation. But, the other documents are utilized for testing stage. The features of word, stem, syllable, character and their n-grams are decided for each documents of these six author. Author recognition systems have been developed with the methods as K-Nearest Neighbor, Support Vector Machine, Multi-Layer Perceptron and Learning Vector Quantization. The feature vectors? lengths of the systems developed by K-Nearest Neighbor have been chosen as 120, 180 and 240. Because the most successful results are obtained as the length of the feature vectors is 120, we have used this length for the other methods. After the developed systems are trained the methods, the systems have been tested and evaluated according to accuracy and F-measure values. tr_TR
dc.language.iso tur tr_TR
dc.publisher Adnan Menderes Üniversitesi, Fen Bilimleri Enstitüsü tr_TR
dc.rights info:eu-repo/semantics/openAccess tr_TR
dc.subject Yazar Tanıma tr_TR
dc.subject K-En Yakın Komşu tr_TR
dc.subject Çok Katmanlı Algılayıcı tr_TR
dc.subject Destek Vektör Makinesi tr_TR
dc.subject LVQ tr_TR
dc.subject N-Gram tr_TR
dc.title Türkçe dokümanlar için yazar tanıma tr_TR
dc.title.alternative Author recognition for Turkish documents tr_TR
dc.type masterThesis tr_TR
dc.contributor.department Adnan Menderes Üniversitesi, Fen Bilimleri Enstitüsü, Matematik Anabilim Dalı, Uygulamalı Matematik Bilim Dalı tr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster