Please use this identifier to cite or link to this item:
http://dspace.uazuay.edu.ec/handle/datos/16758| Title: | Enriquecimiento de un conjunto de datos utilizando modelos de lenguaje grandes. Caso de estudio: Comercio Exterior del Azuay 2022 |
| Authors: | Orellana Cordero, Marcos Patricio Valverde Dávila, José Esteban |
| Keywords: | CADENA DE PENSAMIENTO;CADENA DE PROMPTS;COMERCIO EXTERIOR;CONJUNTO DE DATOS;MODELOS DE LENGUAJE GRANDES;PROMPTS |
| Issue Date: | 2026 |
| Publisher: | Universidad del Azuay |
| Abstract: | Los conjuntos de datos carecen con frecuencia de documentación asociada, lo que impide que los modelos de lenguaje grandes (LLMs) los comprendan e interpreten correctamente sin contexto previo. Este problema limita la capacidad de los LLMs para responder consultas sobre data sets. El objetivo de este trabajo es diseñar y evaluar un sistema basado en cadena de prompts que enriquezca de forma autónoma un conjunto de datos cualquiera, generando información contextual a partir de sus propios atributos, sin requerir documentación. El sistema fue implementado en Python mediante Google Colab, utilizando LLMs accedidos a través de las APIs de Hugging Face y Groq, y aplicado al data set “COMEX_DATA_AZUAY_banco_central_2022.csv”, de comercio exterior del Azuay del año 2022, con 94.018 registros y 78 columnas. El enriquecimiento se ejecutó en hasta nueve iteraciones de prompts encadenados, y los resultados se evaluaron mediante seis consultas SQL (tres simples y tres avanzadas) sobre cinco modelos: Llama-3.1-8B-Instruct, Llama-3.3-70B-versatile, Llama-3.2-1B-Instruct, ERNIE-4.5-0.3B y Qwen2.5-1.5B-Instruct. Todos los modelos alcanzaron una efectividad del 100%, generando respuestas sintácticamente válidas en todas las condiciones. La eficacia varía según el tipo de consulta: las simples obtuvieron un promedio del 81,09% sin enriquecimiento, frente al 42,92% de las avanzadas. El enriquecimiento tuvo un efecto inconsistente a nivel global, aunque resultó beneficioso en consultas avanzadas para modelos de mediana escala. Se concluye que el sistema es viable para transferir comprensión contextual a LLMs sobre data sets, y que la complejidad de la consulta constituye el factor de mayor incidencia sobre la eficacia del sistema. |
| metadata.dc.description.degree: | Ingeniero en Sistemas y Telemática |
| URI: | http://dspace.uazuay.edu.ec/handle/datos/16758 |
| Appears in Collections: | Facultad de Ciencias de la Administración |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| 22115.pdf | Trabajo de Graduación | 737,67 kB | Adobe PDF | ![]() View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
