Tecnología

¿Qué son embeddings y vector databases?

Publicado: 2026-04-25 · Actualizado: 2026-04-25

Embeddings son vectores de números (típicamente 384-3072 dimensiones) que representan el significado semántico de un texto, imagen o audio. Vector databases (Pinecone, pgvector, Qdrant, Weaviate) los almacenan e indexan con algoritmos como HNSW para búsqueda por similitud en milisegundos. NexoSmart usa embeddings para memoria de agentes y búsqueda contextual, pero NO como mecanismo principal de razonamiento (eso lo cubre method indexing).

1536
Dimensión típica de embeddings OpenAI: ms
Latencia de búsqueda en HNSW sobre 10M vectores

¿Cómo se generan los embeddings?

Con un modelo de embeddings (BGE, E5, OpenAI ada-002, Voyage). Le pasás texto, devuelve un vector. Textos similares quedan cercanos en el espacio vectorial. La dimensión típica es 768 o 1536.

¿Qué hace una vector database?

Indexa vectores con algoritmos de approximate nearest neighbor (HNSW, IVF) que permiten búsquedas top-k en milisegundos sobre millones de vectores. Sin esos índices, la búsqueda sería O(n) y no escalaría.

•HNSW: graph-based, default de Qdrant/Weaviate
•IVF: partitioned, escalable a billions
•pgvector: extensión Postgres, HNSW + IVF
•Pinecone: managed cloud, sin self-host

¿Cuándo usar embeddings en agentes?

Para memoria a largo plazo (recuperar conversaciones pasadas), búsqueda semántica en docs, deduplicación de tickets y clustering de patrones. NO para razonamiento ejecutable: ahí usamos method indexing.

¿Qué stack usa NexoSmart?

pgvector dentro del Postgres del cliente cuando hay menos de 10M vectores (simple, sin infra extra). Qdrant cuando el volumen escala. Modelo de embeddings: BGE-M3 multilingüe o E5 según idioma dominante.

Preguntas frecuentes

No. Conviven: la DB relacional para datos estructurados, la vector DB para semántica. pgvector las une en una.

Cero extra si ya tenés Postgres. Solo activás la extensión y agregás índices.

Por idioma (multilingüe vs inglés solo), tamaño de vector (storage cost) y benchmarks MTEB. BGE-M3 es default seguro en NexoSmart.

Escrito por Maximiliano Rodríguez, Fundador y Director de NexoSmart

Última actualización: abril de 2026

Cotizá tu proyecto

Completá estos 3 pasos y recibí una propuesta detallada en tu email.

Contacto

Tu idea

Detalles

Nombre y Apellido

País

Temas relacionados

Hub de Clonación Agéntica RAG vs Method Indexing Method indexing LLM propio open source