Please use this identifier to cite or link to this item: http://hdl.handle.net/11607/3048
Title: Belirteç seçiminin Huffman kodlaması üzerine etkisi
Other Titles: Effect of token selection on Huffman coding
Authors: Günel, Korhan
Dincel, Onur
Adnan Menderes Üniversitesi, Fen Bilimleri Enstitüsü, Matematik Anabilim Dalı
Keywords: Veri sıkıştırma
Huffman kodlaması
n-gram
Düzgün deyimler
Issue Date: 2016
Publisher: Adnan Menderes Üniversitesi, Fen Bilimleri Enstitüsü
Abstract: Bu çalışmada, belirteç seçiminin istatistiksel veri sıkıştırma yöntemlerinden biri olan Huffman sıkıştırma algoritması üzerine etkisi ve verimliliği araştırılmıştır. Bu amaçla Huffman ağacı üretebilmek için düzgün deyimler kullanılarak tanımlanan farklı türdeki belirteçlerin sıkıştırmada sağladığı kazanç hesaplanmış ve sıkıştırma performansları karşılaştırılmıştır. Çalışma beş ana bölümden oluşmaktadır. Giriş bölümünde, veri sıkıştırma tanımından ve veri sıkıştırma yöntemlerinin sınıflandırılmasından bahsedilmiştir. İkinci bölümde veri sıkıştırma yöntemlerinden olan istatistiksel veri sıkıştırma incelenmiş ve bilgi teorisi kavramları açıklanmıştır. Çalışmanın üçüncü bölümünde, kullanılan belirteç türlerini açıklama adına n-gram, Türkçe heceleme algoritması ve düzgün deyim kavramlarından söz edilmiştir. Dördüncü bölümde ise n-gram, hece ve düzgün deyimlerin yanı sıra bunların birlikte kullanımları ile yaratılan belirteçler ile Huffman ağaçları oluşturulmuş ve sıkıştırma işlemleri gerçekleştirilmiştir. Sıkıştırma işlemi yedi farklı doküman üzerinde test edilmiştir ve her bir dokümanın kullanılan tüm belirteç türlerine ait sonuçları elde edilmiştir. Çalışmanın son bölümünde elde edilen sonuçlar tartışılmıştır.
In this study, the effect and efficiency of token selection is investigated on the Huffman compression algorithm, one of the statistical data compression methods. To this end, compression gains for different types of tokens identified using regular expressions to produce Huffman tree is calculated and compression performance is compared. The study consists of five main chapters. In the introductory chapter, it is mentioned that the definition of data compression and classification of the data compression methods. In the second chapter, statistical data compression, one of the data compression methods is examined and basic concepts in information theory are explained. In the third chapter of the study, to describe used token type, it is introduced n-gram, Turkish syllabification algorithm and regular expression concept. Also in the fourth chapter, as well as n-gram, syllable and regular expression, Huffman trees with tokens created with collocation of their is generated and compression processing is performed. Compression processing is tested on seven different documents and the results of each document that is used for all tokens type is obtained. In the last chapter of the study, the results obtained is discussed.
URI: http://hdl.handle.net/11607/3048
Appears in Collections:Yüksek Lisans

Files in This Item:
File Description SizeFormat 
Onur DİNCEL.pdfYüksek Lisans Tezi1.2 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.