许多检索增强生成(RAG)和代码搜索流程依赖于临时检查,在大规模部署时会出现故障。
本次演讲将介绍一种“评估优先”的开发工作流,该工作流已应用于一个基于 Python、PostgreSQL(pgvector)和 OpenAI 重排器构建的生产级代码搜索引擎。在优化前引入自动化评估套件后,平均查询延迟从20分钟降至30秒,实现了40倍的速度提升,相关性也提高了约30%。内容将涵盖:
- 构建特定任务的评估数据集和指标
- 混合( lexical + 近似最近邻)检索
- 用于提升精度的交叉编码器重排
- 保持索引新鲜度和查询速度的语义缓存策略
本次会议将包含基准测试结果、现场演示,以及一个采用 MIT 许可证的参考实现——参会者可克隆该实现并进行扩展。