Caso de estudio · 2024

Infra de recuperación

Gateway RAG híbrido enterprise

Fachada de ingesta + retrieval unificando señales léxicas y densas a escala de marketplace (borrador).

Reconstrucción de índices P95 6m12s vs 54m de referencia

Rol
Arquitecto principal
Stack
OpenSearch k-NN · trabajos Ray · rerank ONNX · pools de GPU

Contexto

Escala tipo Multimarkts: rejillas de inspiración rápidas, pero la reconstrucción nocturna congelaba el catálogo casi una hora.

Enfoque

Pipelines Ray por bloques, rerank ONNX en CPU para amortiguar GPUs, índices sombra antes de cortar producción + observabilidad de recall@k y drift modelado como SLO ejecutivo.

Resultados

  • Refresco de embeddings P95 6m12s frente a ≈54m de los monolitos secuenciales.
  • Recall@10 +0,11 frente a vectores solo densos según paneles QA internos.