RAG-记录大量知识入库性能问题

张开发
2026/6/8 4:47:04 15 分钟阅读
RAG-记录大量知识入库性能问题
一、背景上周我们的知识治理系统一次性推送了10万文档数据进行向量化对现有的数据处理链路造成了明显冲击暴露出多个性能瓶颈。整个处理链路如下数据推送 → 数据清洗流水线 → Kafka → 加载切分服务 → 大模型总结→ 向量化 → 入库在这次高并发数据冲击下系统在多个阶段出现了阻塞问题。本文将复盘问题并给出优化思路。二、整体流程图当前处理流程三、问题拆解流水线阶段限流问题现象数据在清洗阶段堆积流水线被平台限流数据处理延迟明显原因前期压测不足请求频率超过流水线平台限制解决方案降低触发频率 → 避免限流后续优化逐步放开发送频率优化前后对比项目优化前优化后触发频率高无控制可控是否限流是否数据积压严重缓解加载切分阶段性能瓶颈现象Kafka消费正常切分速度快但整体处理速度慢核心问题点长文本大于2000文本的文章章节触发大模型总结。问题本质大模型调用是同步阻塞长文本越多 → 阻塞越严重高并发 → 模型成为瓶颈四、关键瓶颈分析当前瓶颈流程问题核心数据处理链路被大模型“卡脖子”五、优化尝试与问题方案1多线程并发总结做法使用多线程同时调用大模型效果单机吞吐提升但出现新问题新问题内部大模型服务被压垮请求排队严重响应时间反而变长本质问题瓶颈从“单线程” → 转移到“大模型服务”六、最终优化方案思路解耦大模型处理流程将“总结”从主流程中拆出去优化后流程核心改动点1. 主流程去模型化不再阻塞等待总结优先保证数据入库主链路吞吐2. 引入异步处理使用任务队列如KafkaCelery线程池 队列3. 分阶段处理阶段内容第一阶段切分 入库第二阶段长文本总结第三阶段更新数据七、优化前后对比核心对比项目优化前优化后是否阻塞主流程是否大模型调用方式同步异步系统吞吐低高稳定性差高扩展性差好时序对比优化前阻塞切分 → 等待总结 → 入库优化后非阻塞切分 → 入库 → 异步总结 → 更新八、后续优化模型调用限流增加QPS限制并发数控制优先级队列短文本优先处理长文本延迟处理分批处理策略避免瞬时流量冲击模型九、总结主流程要轻重计算要异步外部依赖必须解耦系统要具备削峰能力

更多文章