Please use this identifier to cite or link to this item: http://hdl.handle.net/11607/645
Title: Türkçe dokümanlar için yazar tanıma
Other Titles: Author recognition for Turkish documents
Authors: Aşlıyan, Rıfat
Kolyiğit, Özcan
Adnan Menderes Üniversitesi, Fen Bilimleri Enstitüsü, Matematik Anabilim Dalı, Uygulamalı Matematik Bilim Dalı
Keywords: Yazar Tanıma
K-En Yakın Komşu
Çok Katmanlı Algılayıcı
Destek Vektör Makinesi
LVQ
N-Gram
Issue Date: 1-Jan-2013
Publisher: Adnan Menderes Üniversitesi, Fen Bilimleri Enstitüsü
Abstract: Günümüzde, yazar tanıma çalışmaları, teknolojinin gelişmesi ve bilginin yaygınlaşması ile ortaya çıkan bir takım sorunlara çözüm üretmek için yapılmaktadır. Bu sorunlardan bazıları yazarı belli olmayan dokümanların yazarlarının belirlenmesi ve yazarının kim olduğundan tam olarak emin olunamayan metinlerin yazarlarının belirlenmesidir. Bu çalışmada, Türkçe dokümanlar için yazar tanıma sistemleri geliştirilmiştir. Sistemlerin eğitilmesinde ve test edilmesinde kullanılmak üzere, gazetelerden seçilen 6 yazara ait köşe yazıları kullanılmıştır. Yazarların 70?er makalesinden oluşan 420 dokümandan oluşan bir derlem hazırlanmıştır. Bu dokümanlardan 20?şer tanesi eğitim için, 50?şer tanesi test için kullanılmıştır. İlk olarak, 6 yazara ait dokümanlar toplanmış, daha sonra her yazara ait 20 doküman birleştirilerek tek bir doküman haline getirilmiştir. Bu şekilde elde edilen 6 doküman için sözcük, gövde, hece ve karakter n-gramlarının öznitelik vektörleri belirlenmiştir. K-En Yakın Komşu algoritması için öznitelik vektörleri belirlenirken her yazar için vektör uzunlukları 120, 180 ve 240 olarak seçilmiş, oluşan öznitelik vektörleri için K-En Yakın Komşu algoritmasıyla test edilmiştir. En başarılı sonuçlar, vektör boyu 120 olduğunda elde edildiğinden diğer metotlar için de vektör boyu 120 olarak kullanılmıştır. Geliştirilen sistemler eğitildikten sonra test edilerek doğruluk ve F-ölçüsü değerlerine göre birbirleriyle karşılaştırılmıştır.
Today, the studies of author recognition have been made for providing the solutions of the problems which occur by developing and growing of information technology. Some of these problems are to specify the authors who the papers are exactly written by. In this study, some systems about author recognition for Turkish documents have been developed. For generating the systems, we have used the columns which belong to six authors in some newspapers. A corpus which includes totally 420 documents is constructed for training and testing of the systems. Each author has seventy documents. Twenty documents of every author are used for training operation. But, the other documents are utilized for testing stage. The features of word, stem, syllable, character and their n-grams are decided for each documents of these six author. Author recognition systems have been developed with the methods as K-Nearest Neighbor, Support Vector Machine, Multi-Layer Perceptron and Learning Vector Quantization. The feature vectors? lengths of the systems developed by K-Nearest Neighbor have been chosen as 120, 180 and 240. Because the most successful results are obtained as the length of the feature vectors is 120, we have used this length for the other methods. After the developed systems are trained the methods, the systems have been tested and evaluated according to accuracy and F-measure values.
URI: http://194.27.38.21/web/catalog/info.php?idx=49145401&idt=1
http://hdl.handle.net/11607/645
Appears in Collections:Yüksek Lisans

Files in This Item:
File Description SizeFormat 
ozcan_kolyigit_abstract.pdf91.11 kBAdobe PDFView/Open
ozcan_kolyigit_özet.pdf156.99 kBAdobe PDFView/Open
ozcan_kolyigit_tez.pdf933.49 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.