Saltar al contenido principal

Cómo crear un sistema RAG en n8n

Escrito por
Antoni Ferrandis
Antoni Ferrandis
Publicado el
15 jul 2025
Vistas
--
Comentarios
--
Cómo crear un sistema RAG en n8n

¿Qué es un sistema RAG y por qué es crucial para tu negocio?

Un sistema RAG (Retrieval-Augmented Generation) es una tecnología revolucionaria que combina la búsqueda de información con la generación de contenido por inteligencia artificial. La principal ventaja: elimina las alucinaciones de la IA y garantiza respuestas basadas en datos reales y verificables.

En este artículo, te explico paso a paso cómo construí un sistema RAG especializado en el Título I de la Constitución Española usando n8n, que puede adaptarse a cualquier tipo de documentación empresarial.

Tecnologías utilizadas

  • N8n: Plataforma de automatización de workflows
  • OpenAI API embbedings: Vectorizar con embeddings
  • Gemini: Modelo de IA para procesamiento de lenguaje natural
  • JavaScript: Código para cortar chunks por artículos
  • Cohere: Sistema de Rerank

Por qué implementar RAG en tu empresa

El problema de los tokens y los costes

Imagina que tienes una documentación de 500 páginas. Enviar todo ese contenido como contexto a un modelo de IA puede consumir millones de tokens, disparando tus costes operativos. Un sistema RAG resuelve esto de manera elegante:

  • Búsqueda inteligente: Solo recupera la información relevante
  • Costes reducidos: Usa una fracción de los tokens necesarios
  • Respuestas precisas: Basadas en tu documentación real

Casos de uso empresariales

Un sistema RAG es especialmente valioso para:

  • Chatbots de atención al cliente que no pueden permitirse inventar información
  • Bases de conocimiento internas para equipos de soporte
  • Asistentes legales que manejan documentación jurídica
  • Sistemas de FAQ automatizados

Arquitectura del sistema RAG en n8n

Preparación y procesamiento de documentos

El primer paso consiste en descargar y procesar el documento PDF desde Google Drive. Aquí encontramos el primer desafío técnico: el chunking tradicional.

El problema del chunking automático

Los sistemas RAG convencionales dividen documentos en fragmentos de 1000 caracteres. Este enfoque tiene un fallo crítico: puede dividir un artículo legal en múltiples chunks, dificultando la recuperación de información completa.

Solución: Chunking inteligente por artículos

Desarrollé un nodo de código personalizado que:

  • Identifica automáticamente cada artículo constitucional
  • Preserva la integridad del contenido legal
  • Limpia el texto de elementos irrelevantes (numeración, títulos)
  • Genera metadatos para cada fragmento
JS
// Expresión regular para encontrar artículos
const articleRegex = /Artículo\s+(\d+)/gi;

// Crear array de artículos con metadatos
const articles = [];
for (let i = 0; i < articleMatches.length; i++) {
  // Lógica de extracción y limpieza
  articles.push({
    article_number: parseInt(currentArticle.number),
    article_title: `Artículo ${currentArticle.number}`,
    content: articleContent,
    character_count: article.content.length
  });
}

Vectorización con OpenAI Embeddings

Una vez procesados los artículos, utilizamos:

  • OpenAI Embeddings para la vectorización
  • Supabase Vector Store como base de datos vectorial
  • Metaetiquetas (article_number) para mantener la trazabilidad

Sistema de recuperación avanzado

El flujo de consulta incluye:

  • Consulta del usuario: "¿Qué dice el artículo 26?"
  • Vectorización de la consulta con OpenAI
  • Búsqueda inicial: Supabase devuelve 20 chunks candidatos
  • Rerank con Cohere: Reduce a los 3 más relevantes
  • Selección final: El chunk con mayor relevanceScore

Implementación del agente RAG

Modelo de interacción

El sistema utiliza Gemini como modelo de conversación, proporcionando:

  • Historial de conversación almacenado en PostgreSQL
  • Respuestas contextuales basadas en interacciones previas
  • Integración nativa con la base de datos vectorial

Sistema de rerank con Cohere

La clave del éxito está en el sistema de rerank:

  • Similitud de coseno mejorada
  • Parámetro relevanceScore para clasificación
  • Selección automática del chunk más relevante

Para finalizar

Un sistema RAG bien implementado en n8n ofrece precisión, eficiencia y escalabilidad para cualquier organización que maneje documentación crítica. La clave está en el procesamiento inteligente del contenido y la recuperación precisa de información relevante. El futuro de la IA empresarial no está en modelos que "saben todo", sino en sistemas que acceden de manera inteligente a información verificada y actualizada.

Última actualización: 15 jul 2025