Publicado: 2026-04-25 · Actualizado: 2026-04-25
Fine-tuning es el proceso de tomar un LLM pre-entrenado (Qwen, Llama) y entrenarlo adicionalmente sobre un dataset específico del dominio para especializarlo en un tono, vocabulario o tarea. NexoSmart fine-tunea Qwen sobre datos del cliente (chats históricos, manuales, transcripciones) usando LoRA, lo que reduce costos de GPU 10x vs entrenamiento full y se incluye en el fee inicial de USD 2.000.
Hu et al., LoRA paper
NexoSmart
NexoSmart
Tres principales: full fine-tuning (entrena todos los pesos, caro y poderoso), LoRA (Low-Rank Adaptation, entrena adaptadores chicos sobre el modelo congelado, 10x más barato) y QLoRA (LoRA cuantizado, corre en GPUs consumer). NexoSmart usa LoRA por default.
Pares de pregunta-respuesta etiquetados, transcripciones de chats reales, manuales de procedimientos. Mínimo 500 pares para mover el tono, 5.000+ para tareas específicas. NexoSmart sintetiza datos cuando el cliente no tiene volumen suficiente.
Con LoRA sobre Qwen 7B: 4-8 horas en una GPU A100. Costo de cómputo: USD 50-200 según tamaño de dataset. Para el cliente: incluido en el fee inicial fijo de USD 2.000 de NexoSmart.
Cuando podés resolver con prompt engineering + method indexing. Cuando los datos cambian semanalmente (mejor RAG selectivo). Cuando el volumen es bajo (menos de 1.000 interacciones/mes). Probá prompt primero, fine-tune si la performance no alcanza.
Parcialmente. Fine-tuning ajusta tono, formato y patrones. Para conocimiento factual cambiante, conviene method indexing o RAG.
Sí. NexoSmart hace re-fine-tunes periódicos cuando el dataset crece o cambia el tono de marca.
Sí, pero el modelo vive en infra del cliente. Los datos nunca salen para entrenamiento de terceros.
Escrito por Maximiliano Rodríguez, Fundador y Director de NexoSmart
Última actualización: abril de 2026
Completá estos 3 pasos y recibí una propuesta detallada en tu email.