Arquitectura de Red Neuronal tipo GAN para la Reducción y Eliminación de Ruido en Audios de Llamadas de Emergencia

Velásquez Cedeño, Roberto Geraldo

Por favor, use este identificador para citar o enlazar este ítem: http://dspace.uazuay.edu.ec/handle/datos/16778

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Orellana Cordero, Marcos Patricio	-
dc.contributor.author	Velásquez Cedeño, Roberto Geraldo	-
dc.date.accessioned	2026-06-10T15:38:30Z	-
dc.date.available	2026-06-10T15:38:30Z	-
dc.date.issued	2026	-
dc.identifier.uri	http://dspace.uazuay.edu.ec/handle/datos/16778	-
dc.description.abstract	Esta investigación presenta AME (ASR-Aware Multibranch Enhancer), un modelo de mejora de habla diseñado para optimizar el rendimiento de sistemas de reconocimiento automático de voz (ASR) en condiciones de datos limitados y supervisión débil. A diferencia de los enfoques tradicionales basados en GAN, centrados en la calidad perceptual, la propuesta se enfoca en los factores que degradan el desempeño del ASR, incluyendo ruido y distorsiones en escenarios de llamadas de emergencia, sin requerir datos pareados limpio-ruidoso ni la optimización explícita de métricas no diferenciables como el Word Error Rate (WER). El modelo opera sobre la señal en el dominio del tiempo e incorpora un componente adversarial, D_WER, que aprende una representación proxy de la calidad relevante para ASR mediante la aproximación y el ordenamiento relativo de señales derivadas del WER, permitiendo guiar el entrenamiento en función del desempeño en reconocimiento. El método se evalúa sobre 1000 audios no pareados en español provenientes de llamadas de emergencia (ECU911), con ruido leve (MOS ˜ 4.25), donde el margen de mejora es limitado. Los resultados muestran que el modelo no mejora consistentemente el desempeño del ASR, con un aumento del WER promedio de 0.2765 a 0.2941 y solo un 36.5% de muestras con mejora. Sin embargo, el discriminador muestra una fuerte capacidad de ordenamiento, con una correlación de Spearman de 0.53 y NDCG@20 superior a 0.85. Estos resultados indican que la señal aprendida es informativa, pero carece de calibración absoluta, limitando su efectividad en la optimización adversarial.	es
dc.language.iso	spa	es
dc.publisher	Universidad del Azuay	es
dc.rights	openAccess	es
dc.subject	APRENDIZAJE DÉBILMENTE SUPERVISADO	es
dc.subject	APRENDIZAJE ORIENTADO A ASR	es
dc.subject	MEJORA DE HABLA	es
dc.subject	MEJORA DE HABLA EN BAJO RECURSO	es
dc.subject	REDES GENERATIVAS ADVERSARIALES	es
dc.title	Arquitectura de Red Neuronal tipo GAN para la Reducción y Eliminación de Ruido en Audios de Llamadas de Emergencia	es
dc.type	bachelorThesis	es
dc.description.degree	Ingeniero en Ciencias de la Computación	es
dc.pagination.pages	44 p.	es
Aparece en las colecciones:	Facultad de Ciencias de la Administración

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
22132.pdf	Trabajo de Graduación	257,18 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem