Bu tezde hece ve sözcük tabanlı Türkçe konuşma tanıma sistemleri geliştirilerek karşılaştırılmıştır. Yapılan bu uygulamalar, orta ölçekli, ayrık ve kişiye bağımlı sistemlerdir. Bu sistemlerde, Dinamik Zaman Bükmesi (DZB), Destek Vektör Makinesi (DVM), Çok Katmanlı Algılayıcı (ÇKA) ve Saklı Markov Modeli (SMM) metotları kullanılarak eğitim ve test işlemleri yapılmıştır. SMM, ÇKA ve DVM metotlarıyla her hece ve sözcük için hece ve sözcük modelleri oluşturulmuştur. Bu modellere göre tanıma işlemi gerçekleştirilmiştir. Sistemler genel olarak, önişleme, öznitelik çıkarma, hece ve sözcük eğitim ve tanıma safhalarından oluşmaktadır. Hece tabanlı sistemlerde artişleme işleminde uygulanmıştır. Önişleme safhasında ses sinyalleri düzleştirilir ve pencereleme işlemi yapılır. Sonra, sözcük ve hece sınırları belirlenir. Öznitelik çıkarma aşamasında, her bir sözcük ve hece için MFCC öznitelik vektörleri oluşturulur. Vektör olarak temsil edilen bu hece ve sözcükler SMM, ÇKA ve DVM metotlarıyla eğitildikten sonra tanıma işlemi yapılır. Hece tabanlı sistemlerde, artişleme yapılarak sistemlerin başarısı önemli ölçüde artırılmıştır. 200 Türkçe sözcükle yapılan test işleminde, hece tabanlı sistemlerdeki en iyi doğru tanıma oranları DZB için %94,2; ÇKA için %88; SMM için %82,6; DVM için ise %90,8 olmuştur. Sözcük tabanlı sistemlerde ise DZB için %96; ÇKA için %82,6; SMM için %89,4; DVM için ise %90,7 oranında doğru tanıma gerçekleştirildi.
In this thesis, word and syllable-based Turkish speech recognition systems developed and compared. The developed systems are discrete, middle-sized and user-dependent. In these systems, Dynamic Time Warping (DTW), MultiLayer Perceptron (MLP), Support Vector Machine (SVM) and Hidden Markov Model (HMM) methods are used in training and testing operations. Using HMM, SVM and MLP methods, word and syllable models are generated for every word and syllable. The recognition operation is applied with this models. The developed systems consist of preprocessing, feature extraction, word and syllable training, recognition and postprocessing operations. Postprocessing has been implemented for syllable-based systems because these approach can be applied for subwords as syllables or letters. In preprocessing, speech signals are flattened, and windowing has been made before the boundaries of the word and syllables are detected. In feature extraction phase, the vectors of Mel Frequency Cepstral Coefficient (MFCC) features which represent the utterances of word and syllables are constructed for each word and syllable. After these feature vectors are trained by HMM, MLP and SVM, the recognition operation of each word in test set is made to measure the systems success. In syllable-based systems, postprocessing is highly effective to increase the accuracy of the systems. In testing operation made with 200 Turkish words, the best accuracy rate of syllable-based systems are 94.2%, 88%, 82.6% and 90.8% for DTW, MLP, HMM and SVM respectively. But, in word-based systems, the accuracy rates for DTW, MLP, HMM and SVM are measured as 96%, 82.6%, 89.4% and 90.7% respectively.