Please use this identifier to cite or link to this item: https://hdl.handle.net/10923/7765
Type: masterThesis
Title: Aplicação do método de fusão para verificação de locutor independente de texto
Author(s): Silva, Mayara Ferreira da
Advisor: Castro, Maria Cristina Felippetto de
Publisher: Pontifícia Universidade Católica do Rio Grande do Sul
Graduate Program: Programa de Pós-Graduação em Engenharia Elétrica
Issue Date: 2015
Keywords: ENGENHARIA ELÉTRICA
REDES NEURAIS (COMPUTAÇÃO)
RELAÇÃO HOMEM-MÁQUINA
RECONHECIMENTO DE VOZ (INFORMÁTICA)
SINTETIZADORES DE VOZ (INFORMÁTICA)
PROCESSAMENTO DE SINAIS - TÉCNICAS DIGITAIS
PROCESSAMENTO DE VOZ - TÉCNICAS DIGITAIS
Abstract: This work presents an overview of text independent speaker verification, describing the basic operation of the system and the reviewing some important developments in speaker modeling and feature extraction from speech. Following, a point of improvement identified within the feature extraction stage leads to the main objective of this work: to determine one or more sets of coefficients relevant to speaker discrimination while minimizing the equal error rate (EER). The proposal is to replace the delta(Δ) and double-delta(Δ²) coefficients by a linear predictor code (LPC) for the mel frequency cepstral coefficients (MFCC). In addition, score level fusion is employed to combine the ouputs of MFCC-only and MFCC-LPC systems, as well as MFCC-only and MFCC-Δ-Δ² systems. In all cases, performance is evaluated with respect to variations of the signal to noise-ratio (SNR) in the tested audio. In addition, the work introduces a new Brazilian Portuguese speech repository containing free-speech from 155 males. Results and discussions are presented with a reflection on the expected outcomes, as well as general comments and observations. Finally, concludings remarks are made about the work, featuring future prospects regarding text independent speaker verification research. This work attained a 4% reduction in the EER compared to the reference system (MFCC-only), with best results occuring in the case fusion of MFCC-only and MFCC-Δ-Δ² scores.
Este trabalho apresenta uma visão geral acerca de verificação de locutor independente de texto, demonstrando o funcionamento básico do sistema e as principais referências de métodos já utilizados ao longo de anos para extração de características da fala e modelamento do locutor. Detectado um ponto a ser trabalhado dentro da etapa de extração de características, objetiva-se determinar coeficientes ou um conjunto destes relevantes para discriminação do locutor, com o intuito de minimizar a EER (Equal Error Rate). A proposta consiste em substituir os coeficientes delta(Δ) e double-delta(Δ2) por coeficientes de um preditor LPC (Linear Predictor Coding) o qual realiza a predição dos coeficientes MFCC (Mel Frequency Cepstral Coeficients). Além disso, aplica-se uma fusão a nível de score em função de sistemas baseados em MFCC e LPC. Outra análise discutida no trabalho é a fusão de um sistema MFCC com Δ e Δ².Um tópico também avaliado é com relação a variações de SNRs (Signal to Noise Ratios) nos áudios testados. Além disso, é elaborado um banco de falas em português brasileiro. Por fim, são expostos os resultados obtidos e é feita a análise dos mesmos, a fim de refletir sobre o que era esperado e levantar alguns comentários. Enfim, são feitas as considerações a respeito do trabalho, e elencadas as perspectivas futuras em torno das pesquisas de verificação de locutor independente de texto. Com este trabalho atingiu-se uma redução de 4% na taxa de erro igual (EER) em comparação ao sistema de referência, sendo que os melhores resultados foram apresentados pelo sistema que realiza um fusão do sistema MFCC com o Δ e Δ².
URI: http://hdl.handle.net/10923/7765
Appears in Collections:Dissertação e Tese

Files in This Item:
File Description SizeFormat 
000476876-Texto+Completo-0.pdfTexto Completo2,74 MBAdobe PDFOpen
View


All Items in PUCRS Repository are protected by copyright, with all rights reserved, and are licensed under a Creative Commons Attribution-NonCommercial 4.0 International License. Read more.