Enriquecimiento de un conjunto de datos utilizando modelos de lenguaje grandes. Caso de estudio: Comercio Exterior del Azuay 2022

Valverde Dávila, José Esteban

Por favor, use este identificador para citar o enlazar este ítem: http://dspace.uazuay.edu.ec/handle/datos/16758

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Orellana Cordero, Marcos Patricio	-
dc.contributor.author	Valverde Dávila, José Esteban	-
dc.date.accessioned	2026-06-09T22:49:04Z	-
dc.date.available	2026-06-09T22:49:04Z	-
dc.date.issued	2026	-
dc.identifier.uri	http://dspace.uazuay.edu.ec/handle/datos/16758	-
dc.description.abstract	Los conjuntos de datos carecen con frecuencia de documentación asociada, lo que impide que los modelos de lenguaje grandes (LLMs) los comprendan e interpreten correctamente sin contexto previo. Este problema limita la capacidad de los LLMs para responder consultas sobre data sets. El objetivo de este trabajo es diseñar y evaluar un sistema basado en cadena de prompts que enriquezca de forma autónoma un conjunto de datos cualquiera, generando información contextual a partir de sus propios atributos, sin requerir documentación. El sistema fue implementado en Python mediante Google Colab, utilizando LLMs accedidos a través de las APIs de Hugging Face y Groq, y aplicado al data set “COMEX_DATA_AZUAY_banco_central_2022.csv”, de comercio exterior del Azuay del año 2022, con 94.018 registros y 78 columnas. El enriquecimiento se ejecutó en hasta nueve iteraciones de prompts encadenados, y los resultados se evaluaron mediante seis consultas SQL (tres simples y tres avanzadas) sobre cinco modelos: Llama-3.1-8B-Instruct, Llama-3.3-70B-versatile, Llama-3.2-1B-Instruct, ERNIE-4.5-0.3B y Qwen2.5-1.5B-Instruct. Todos los modelos alcanzaron una efectividad del 100%, generando respuestas sintácticamente válidas en todas las condiciones. La eficacia varía según el tipo de consulta: las simples obtuvieron un promedio del 81,09% sin enriquecimiento, frente al 42,92% de las avanzadas. El enriquecimiento tuvo un efecto inconsistente a nivel global, aunque resultó beneficioso en consultas avanzadas para modelos de mediana escala. Se concluye que el sistema es viable para transferir comprensión contextual a LLMs sobre data sets, y que la complejidad de la consulta constituye el factor de mayor incidencia sobre la eficacia del sistema.	es
dc.language.iso	spa	es
dc.publisher	Universidad del Azuay	es
dc.rights	openAccess	es
dc.subject	CADENA DE PENSAMIENTO	es
dc.subject	CADENA DE PROMPTS	es
dc.subject	COMERCIO EXTERIOR	es
dc.subject	CONJUNTO DE DATOS	es
dc.subject	MODELOS DE LENGUAJE GRANDES	es
dc.subject	PROMPTS	es
dc.title	Enriquecimiento de un conjunto de datos utilizando modelos de lenguaje grandes. Caso de estudio: Comercio Exterior del Azuay 2022	es
dc.type	bachelorThesis	es
dc.description.degree	Ingeniero en Sistemas y Telemática	es
dc.pagination.pages	48 p.	es
Aparece en las colecciones:	Facultad de Ciencias de la Administración

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
22115.pdf	Trabajo de Graduación	737,67 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem