DSpace logo

Please use this identifier to cite or link to this item: http://dspace.uazuay.edu.ec/handle/datos/16758
Title: Enriquecimiento de un conjunto de datos utilizando modelos de lenguaje grandes. Caso de estudio: Comercio Exterior del Azuay 2022
Authors: Orellana Cordero, Marcos Patricio
Valverde Dávila, José Esteban
Keywords: CADENA DE PENSAMIENTO;CADENA DE PROMPTS;COMERCIO EXTERIOR;CONJUNTO DE DATOS;MODELOS DE LENGUAJE GRANDES;PROMPTS
Issue Date: 2026
Publisher: Universidad del Azuay
Abstract: Los conjuntos de datos carecen con frecuencia de documentación asociada, lo que impide que los modelos de lenguaje grandes (LLMs) los comprendan e interpreten correctamente sin contexto previo. Este problema limita la capacidad de los LLMs para responder consultas sobre data sets. El objetivo de este trabajo es diseñar y evaluar un sistema basado en cadena de prompts que enriquezca de forma autónoma un conjunto de datos cualquiera, generando información contextual a partir de sus propios atributos, sin requerir documentación. El sistema fue implementado en Python mediante Google Colab, utilizando LLMs accedidos a través de las APIs de Hugging Face y Groq, y aplicado al data set “COMEX_DATA_AZUAY_banco_central_2022.csv”, de comercio exterior del Azuay del año 2022, con 94.018 registros y 78 columnas. El enriquecimiento se ejecutó en hasta nueve iteraciones de prompts encadenados, y los resultados se evaluaron mediante seis consultas SQL (tres simples y tres avanzadas) sobre cinco modelos: Llama-3.1-8B-Instruct, Llama-3.3-70B-versatile, Llama-3.2-1B-Instruct, ERNIE-4.5-0.3B y Qwen2.5-1.5B-Instruct. Todos los modelos alcanzaron una efectividad del 100%, generando respuestas sintácticamente válidas en todas las condiciones. La eficacia varía según el tipo de consulta: las simples obtuvieron un promedio del 81,09% sin enriquecimiento, frente al 42,92% de las avanzadas. El enriquecimiento tuvo un efecto inconsistente a nivel global, aunque resultó beneficioso en consultas avanzadas para modelos de mediana escala. Se concluye que el sistema es viable para transferir comprensión contextual a LLMs sobre data sets, y que la complejidad de la consulta constituye el factor de mayor incidencia sobre la eficacia del sistema.
metadata.dc.description.degree: Ingeniero en Sistemas y Telemática
URI: http://dspace.uazuay.edu.ec/handle/datos/16758
Appears in Collections:Facultad de Ciencias de la Administración

Files in This Item:
File Description SizeFormat 
22115.pdfTrabajo de Graduación737,67 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.