Arquitectura de Red Neuronal tipo GAN para la Reducción y Eliminación de Ruido en Audios de Llamadas de Emergencia

Velásquez Cedeño, Roberto Geraldo

Por favor, use este identificador para citar o enlazar este ítem: http://dspace.uazuay.edu.ec/handle/datos/16778

Título :	Arquitectura de Red Neuronal tipo GAN para la Reducción y Eliminación de Ruido en Audios de Llamadas de Emergencia
Autor :	Orellana Cordero, Marcos Patricio Velásquez Cedeño, Roberto Geraldo
Palabras clave :	APRENDIZAJE DÉBILMENTE SUPERVISADO;APRENDIZAJE ORIENTADO A ASR;MEJORA DE HABLA;MEJORA DE HABLA EN BAJO RECURSO;REDES GENERATIVAS ADVERSARIALES
Fecha de publicación :	2026
Editorial :	Universidad del Azuay
Resumen :	Esta investigación presenta AME (ASR-Aware Multibranch Enhancer), un modelo de mejora de habla diseñado para optimizar el rendimiento de sistemas de reconocimiento automático de voz (ASR) en condiciones de datos limitados y supervisión débil. A diferencia de los enfoques tradicionales basados en GAN, centrados en la calidad perceptual, la propuesta se enfoca en los factores que degradan el desempeño del ASR, incluyendo ruido y distorsiones en escenarios de llamadas de emergencia, sin requerir datos pareados limpio-ruidoso ni la optimización explícita de métricas no diferenciables como el Word Error Rate (WER). El modelo opera sobre la señal en el dominio del tiempo e incorpora un componente adversarial, D_WER, que aprende una representación proxy de la calidad relevante para ASR mediante la aproximación y el ordenamiento relativo de señales derivadas del WER, permitiendo guiar el entrenamiento en función del desempeño en reconocimiento. El método se evalúa sobre 1000 audios no pareados en español provenientes de llamadas de emergencia (ECU911), con ruido leve (MOS ˜ 4.25), donde el margen de mejora es limitado. Los resultados muestran que el modelo no mejora consistentemente el desempeño del ASR, con un aumento del WER promedio de 0.2765 a 0.2941 y solo un 36.5% de muestras con mejora. Sin embargo, el discriminador muestra una fuerte capacidad de ordenamiento, con una correlación de Spearman de 0.53 y NDCG@20 superior a 0.85. Estos resultados indican que la señal aprendida es informativa, pero carece de calibración absoluta, limitando su efectividad en la optimización adversarial.
metadata.dc.description.degree:	Ingeniero en Ciencias de la Computación
URI :	http://dspace.uazuay.edu.ec/handle/datos/16778
Aparece en las colecciones:	Facultad de Ciencias de la Administración

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
22132.pdf	Trabajo de Graduación	257,18 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem