Caso de estudio · 2024
Infra de recuperación
Gateway RAG híbrido enterprise
Fachada de ingesta + retrieval unificando señales léxicas y densas a escala de marketplace (borrador).
Reconstrucción de índices P95 6m12s vs 54m de referencia
- Rol
- Arquitecto principal
- Stack
- OpenSearch k-NN · trabajos Ray · rerank ONNX · pools de GPU
Contexto
Escala tipo Multimarkts: rejillas de inspiración rápidas, pero la reconstrucción nocturna congelaba el catálogo casi una hora.
Enfoque
Pipelines Ray por bloques, rerank ONNX en CPU para amortiguar GPUs, índices sombra antes de cortar producción + observabilidad de recall@k y drift modelado como SLO ejecutivo.
Resultados
- Refresco de embeddings P95 6m12s frente a ≈54m de los monolitos secuenciales.
- Recall@10 +0,11 frente a vectores solo densos según paneles QA internos.
- RAG híbrido