Por favor, use este identificador para citar o enlazar este ítem:
http://dspace.uazuay.edu.ec/handle/datos/16778| Título : | Arquitectura de Red Neuronal tipo GAN para la Reducción y Eliminación de Ruido en Audios de Llamadas de Emergencia |
| Autor : | Orellana Cordero, Marcos Patricio Velásquez Cedeño, Roberto Geraldo |
| Palabras clave : | APRENDIZAJE DÉBILMENTE SUPERVISADO;APRENDIZAJE ORIENTADO A ASR;MEJORA DE HABLA;MEJORA DE HABLA EN BAJO RECURSO;REDES GENERATIVAS ADVERSARIALES |
| Fecha de publicación : | 2026 |
| Editorial : | Universidad del Azuay |
| Resumen : | Esta investigación presenta AME (ASR-Aware Multibranch Enhancer), un modelo de mejora de habla diseñado para optimizar el rendimiento de sistemas de reconocimiento automático de voz (ASR) en condiciones de datos limitados y supervisión débil. A diferencia de los enfoques tradicionales basados en GAN, centrados en la calidad perceptual, la propuesta se enfoca en los factores que degradan el desempeño del ASR, incluyendo ruido y distorsiones en escenarios de llamadas de emergencia, sin requerir datos pareados limpio-ruidoso ni la optimización explícita de métricas no diferenciables como el Word Error Rate (WER). El modelo opera sobre la señal en el dominio del tiempo e incorpora un componente adversarial, D_WER, que aprende una representación proxy de la calidad relevante para ASR mediante la aproximación y el ordenamiento relativo de señales derivadas del WER, permitiendo guiar el entrenamiento en función del desempeño en reconocimiento. El método se evalúa sobre 1000 audios no pareados en español provenientes de llamadas de emergencia (ECU911), con ruido leve (MOS ˜ 4.25), donde el margen de mejora es limitado. Los resultados muestran que el modelo no mejora consistentemente el desempeño del ASR, con un aumento del WER promedio de 0.2765 a 0.2941 y solo un 36.5% de muestras con mejora. Sin embargo, el discriminador muestra una fuerte capacidad de ordenamiento, con una correlación de Spearman de 0.53 y NDCG@20 superior a 0.85. Estos resultados indican que la señal aprendida es informativa, pero carece de calibración absoluta, limitando su efectividad en la optimización adversarial. |
| metadata.dc.description.degree: | Ingeniero en Ciencias de la Computación |
| URI : | http://dspace.uazuay.edu.ec/handle/datos/16778 |
| Aparece en las colecciones: | Facultad de Ciencias de la Administración |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| 22132.pdf | Trabajo de Graduación | 257,18 kB | Adobe PDF | ![]() Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.
