先评估,后编码:评估、重排器与缓存实用指南

闪电演讲
17:20 - 17:30
分会场 C(317 教室)

详情

许多检索增强生成(RAG)和代码搜索流程依赖于临时检查,在大规模部署时会出现故障。

本次演讲将介绍一种“评估优先”的开发工作流,该工作流已应用于一个基于 Python、PostgreSQL(pgvector)和 OpenAI 重排器构建的生产级代码搜索引擎。在优化前引入自动化评估套件后,平均查询延迟从20分钟降至30秒,实现了40倍的速度提升,相关性也提高了约30%。内容将涵盖:

  • 构建特定任务的评估数据集和指标
  • 混合( lexical + 近似最近邻)检索
  • 用于提升精度的交叉编码器重排
  • 保持索引新鲜度和查询速度的语义缓存策略

本次会议将包含基准测试结果、现场演示,以及一个采用 MIT 许可证的参考实现——参会者可克隆该实现并进行扩展。