Enriquecimiento de un conjunto de datos utilizando modelos de lenguaje grandes. Caso de estudio: Comercio Exterior del Azuay 2022

Valverde Dávila, José Esteban

Please use this identifier to cite or link to this item: http://dspace.uazuay.edu.ec/handle/datos/16758

Title:	Enriquecimiento de un conjunto de datos utilizando modelos de lenguaje grandes. Caso de estudio: Comercio Exterior del Azuay 2022
Authors:	Orellana Cordero, Marcos Patricio Valverde Dávila, José Esteban
Keywords:	CADENA DE PENSAMIENTO;CADENA DE PROMPTS;COMERCIO EXTERIOR;CONJUNTO DE DATOS;MODELOS DE LENGUAJE GRANDES;PROMPTS
Issue Date:	2026
Publisher:	Universidad del Azuay
Abstract:	Los conjuntos de datos carecen con frecuencia de documentación asociada, lo que impide que los modelos de lenguaje grandes (LLMs) los comprendan e interpreten correctamente sin contexto previo. Este problema limita la capacidad de los LLMs para responder consultas sobre data sets. El objetivo de este trabajo es diseñar y evaluar un sistema basado en cadena de prompts que enriquezca de forma autónoma un conjunto de datos cualquiera, generando información contextual a partir de sus propios atributos, sin requerir documentación. El sistema fue implementado en Python mediante Google Colab, utilizando LLMs accedidos a través de las APIs de Hugging Face y Groq, y aplicado al data set “COMEX_DATA_AZUAY_banco_central_2022.csv”, de comercio exterior del Azuay del año 2022, con 94.018 registros y 78 columnas. El enriquecimiento se ejecutó en hasta nueve iteraciones de prompts encadenados, y los resultados se evaluaron mediante seis consultas SQL (tres simples y tres avanzadas) sobre cinco modelos: Llama-3.1-8B-Instruct, Llama-3.3-70B-versatile, Llama-3.2-1B-Instruct, ERNIE-4.5-0.3B y Qwen2.5-1.5B-Instruct. Todos los modelos alcanzaron una efectividad del 100%, generando respuestas sintácticamente válidas en todas las condiciones. La eficacia varía según el tipo de consulta: las simples obtuvieron un promedio del 81,09% sin enriquecimiento, frente al 42,92% de las avanzadas. El enriquecimiento tuvo un efecto inconsistente a nivel global, aunque resultó beneficioso en consultas avanzadas para modelos de mediana escala. Se concluye que el sistema es viable para transferir comprensión contextual a LLMs sobre data sets, y que la complejidad de la consulta constituye el factor de mayor incidencia sobre la eficacia del sistema.
metadata.dc.description.degree:	Ingeniero en Sistemas y Telemática
URI:	http://dspace.uazuay.edu.ec/handle/datos/16758
Appears in Collections:	Facultad de Ciencias de la Administración

Files in This Item:

File	Description	Size	Format
22115.pdf	Trabajo de Graduación	737,67 kB	Adobe PDF	View/Open

Show full item record