Yapay sinir ağları ile konuşmacı kimliğini tanıma uygulaması
Abstract
Bu çalışmada konuşma işaretinin incelenmesi ve son günlerde en popüler tanıma yöntemi olan Yapay Sinir Ağlarını (YSA) kullanarak Türkçe sesli harflerden kimlik tanıma uygulaması yapılmıştır. Tanıma işlemi genellikle, işaretin işlenmesi, belirgin özelliklerinin çıkarılması ve bunların karşılaştırılması safhalarından oluşmaktadır. Alman ses örnekleri ses kartının özelliğine göre örnekleme yapılarak sayısal veri şekline dönüştürülmüştür. Ses analizi aşamasında, tüm ses verilerindeki tekrar eden periyotlar ve gürültüler hamming pencereleme metodu kullanılarak kırpılmış ve sesin özniteliğini temsil eden kısmı elde edilmiştir. Analiz edilen ses verilerinin özniteliğinin bulunması için LPC (doğrusal öngörü analizi) ve DFT (ayrık fourier dönüşümü) metodları kullanılmıştır. Kimlik tanıma işlemi için kullanılan 28 parametrenin 12 si LPC, 16 sı da DFT metodu ile elde edilmiştir. Yapay Sinir Ağlarında eğitme ve test için konuşmacının sesini temsil eden bu 28 parametre kullanılmaktadır. YSA yapısı için çok katmanlı algılayıcı modeli, eğitim için de genelleştirilmiş delta kurallı hatanın geriye yayılması algoritması kullanılmıştır. 7 farklı kişiden alınan 'a' sesli harfinin öznitelikleri bulunmuş ve bunlar sesli harfin alındığı kişiyi bulacak şekilde oluşturulan YSA mimarisi eğitilmiştir. Daha sonra eğitim setinde olmayan verilerle YSA nın başarısı test edilmiş, kabul edilebilir bir hata ile iyi sonuçlar elde edilmiştir. In this study an artificial neural network (ANN) is implemented, which has been used frequently as an implementation model in recent years, to recognize speaker identification. Generally, recognition is consist of three stages that, processing of signal, obtaining attributes and comparing them. Speech samples are transformed into digital data according to voice card of PC. In the analysis of voice stage, recurrent periods and white noise of voice data are trimmed by hamming window method and voice attribute part of the digital data is obtained. For obtaining attribute of voice data LPC (linear predictive coding) and DFT (discrete fourier transform) methods are used. Of those 28 coefficents, that is used for speaker recognition, 16 were obtained by the analysis of DFT and 12 were obtained by the analysis of LPC. The parameters that represent speaker voice, is used for training and test of ANN. Multilayer perceptron model is used as an architecture of ANN and backpropagation algorithm is used for training method. Voices of "a" is taken from 7 different person and their attributes are found. ANN is trained with these features to find the speaker who is the owner of the sample voice. And then using the test data that is not used for training part, recognition achievement of ANN is tested. As a result, good results were obtained with low failure rate.
URI
https://app.trdizin.gov.tr/publication/paper/detail/TlRnMU9USXk=http://hdl.handle.net/20.500.12481/3119
Collections
- TR - Dizin [3877]