DSpace logo

Por favor, use este identificador para citar o enlazar este ítem: http://dspace.uazuay.edu.ec/handle/datos/16758
Título : Enriquecimiento de un conjunto de datos utilizando modelos de lenguaje grandes. Caso de estudio: Comercio Exterior del Azuay 2022
Autor : Orellana Cordero, Marcos Patricio
Valverde Dávila, José Esteban
Palabras clave : CADENA DE PENSAMIENTO;CADENA DE PROMPTS;COMERCIO EXTERIOR;CONJUNTO DE DATOS;MODELOS DE LENGUAJE GRANDES;PROMPTS
Fecha de publicación : 2026
Editorial : Universidad del Azuay
Resumen : Los conjuntos de datos carecen con frecuencia de documentación asociada, lo que impide que los modelos de lenguaje grandes (LLMs) los comprendan e interpreten correctamente sin contexto previo. Este problema limita la capacidad de los LLMs para responder consultas sobre data sets. El objetivo de este trabajo es diseñar y evaluar un sistema basado en cadena de prompts que enriquezca de forma autónoma un conjunto de datos cualquiera, generando información contextual a partir de sus propios atributos, sin requerir documentación. El sistema fue implementado en Python mediante Google Colab, utilizando LLMs accedidos a través de las APIs de Hugging Face y Groq, y aplicado al data set “COMEX_DATA_AZUAY_banco_central_2022.csv”, de comercio exterior del Azuay del año 2022, con 94.018 registros y 78 columnas. El enriquecimiento se ejecutó en hasta nueve iteraciones de prompts encadenados, y los resultados se evaluaron mediante seis consultas SQL (tres simples y tres avanzadas) sobre cinco modelos: Llama-3.1-8B-Instruct, Llama-3.3-70B-versatile, Llama-3.2-1B-Instruct, ERNIE-4.5-0.3B y Qwen2.5-1.5B-Instruct. Todos los modelos alcanzaron una efectividad del 100%, generando respuestas sintácticamente válidas en todas las condiciones. La eficacia varía según el tipo de consulta: las simples obtuvieron un promedio del 81,09% sin enriquecimiento, frente al 42,92% de las avanzadas. El enriquecimiento tuvo un efecto inconsistente a nivel global, aunque resultó beneficioso en consultas avanzadas para modelos de mediana escala. Se concluye que el sistema es viable para transferir comprensión contextual a LLMs sobre data sets, y que la complejidad de la consulta constituye el factor de mayor incidencia sobre la eficacia del sistema.
metadata.dc.description.degree: Ingeniero en Sistemas y Telemática
URI : http://dspace.uazuay.edu.ec/handle/datos/16758
Aparece en las colecciones: Facultad de Ciencias de la Administración

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
22115.pdfTrabajo de Graduación737,67 kBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.