Day02:RAGAS 评估体系(ACP 必考・科普级备考笔记)

张开发
2026/4/17 1:52:27 15 分钟阅读

分享文章

Day02:RAGAS 评估体系(ACP 必考・科普级备考笔记)
文章目录RAGAS 评估体系ACP 必考・科普级备考笔记一、RAGAS 是什么ACP 名词解释必考二、核心 4 项评估指标ACP 重中之重・4 个全要背1. 忠实度 Faithfulness生成质量核心・幻觉问题对应指标【科普大白话】【ACP 考点定位】【对应已学优化技巧】【考试易错示例】2. 回答相关性 Answer Relevancy生成质量核心・答非所问对应指标【科普大白话】【ACP 考点定位】【对应已学优化技巧】【考试易错示例】3. 上下文召回率 Context Recall检索质量核心・关键信息遗漏对应指标【科普大白话】【ACP 考点定位】【对应已学优化技巧】【考试易错示例】4. 上下文精准率 Context Precision检索质量核心・冗余信息对应指标【科普大白话】【ACP 考点定位】【对应已学优化技巧】【考试易错示例】三、ACP 考点速记5 分钟背完1. 指标分类必背2. 速记口诀秒背 4 个指标3. 必考错误场景对应表选择题直接套四、关联已学 RAG 优化串联记忆・不用再单独背五、ACP 真题模拟练手・全是高频考点RAGAS 评估体系ACP 必考・科普级备考笔记嗨这是 ACP 考试 RAG 部分稳拿分的必背考点RAGAS 就是给你的 RAG 系统自动打分的AI 阅卷老师—— 不用人工逐题批改它从 4 个核心维度判分而且刚好和咱们之前学的 RAG 全流程优化文档切分 / 检索 / 生成一一对应记起来超顺一、RAGAS 是什么ACP 名词解释必考科普大白话专门给 RAG 系统打分的自动化评估工具解决人工评估效率低、主观性强的问题 —— 就像你考 ACP 时的客观题阅卷机标准统一、速度快ACP 考点定位必考名词解释“请简述 RAGAS 的核心作用”或选择题“以下哪个是 RAG 效果自动化评估标准A.RAGAS B.LLM C. 向量 DB”二、核心 4 项评估指标ACP 重中之重・4 个全要背每个指标都按「大白话解释→考点定位→对应已学优化技巧→考试易错示例」拆解关联之前学的 RAG 优化知识不用死记硬背1. 忠实度 Faithfulness生成质量核心・幻觉问题对应指标【科普大白话】RAG 生成的回答必须严格 “抄” 检索到的原文绝对不能瞎编、加戏 —— 就像你考试时不能自己编造知识点必须紧扣给定材料答题【ACP 考点定位】必考幻觉 / 编造内容的对应指标选择题高频考点考法“某 RAG 系统回答出现未在知识库中提及的功能请问哪个指标不达标”【对应已学优化技巧】咱们之前学的生成环节优化就是为了提升这个指标温度参数设 0.1-0.3让模型 “不敢瞎编”加少样本示例规范模型输出必须按原文答【考试易错示例】原文通义 Embedding 支持 50 主流语种错误回答通义 Embedding 支持 100 语种→忠实度不达标2. 回答相关性 Answer Relevancy生成质量核心・答非所问对应指标【科普大白话】RAG 的回答必须紧扣用户问题不能答非所问 —— 就像你考试时不能把 “检索策略” 的题答成 “文档切分”【ACP 考点定位】必考答非所问的对应指标选择题高频考点考法“用户问 RAG 检索策略有哪些回答却讲文档切分请问哪个指标不达标”【对应已学优化技巧】咱们之前学的检索策略优化就是为了提升这个指标用户问题改写让检索更贴合问题Rerank 重排序把最贴合问题的上下文送给大模型【考试易错示例】用户问题RAG 的检索策略有哪些错误回答RAG 的文档切分方法有固定长度、语义切分→回答相关性不达标3. 上下文召回率 Context Recall检索质量核心・关键信息遗漏对应指标【科普大白话】RAG 的检索环节必须把所有关键信息找全不能遗漏 —— 就像你考试时找材料必须把和题目相关的所有段落都找到不能漏【ACP 考点定位】必考关键信息遗漏的对应指标选择题 简答题考点考法“如何提升 RAG 的上下文召回率”答咱们学过的优化技巧就行【对应已学优化技巧】咱们之前学的文档切分 检索策略优化就是为了提升这个指标文档切分块重叠避免关键信息被切碎、递归切分按语义分层切不丢信息检索策略混合检索BM25 向量、召回条数设 Top20-100确保覆盖所有关键信息【考试易错示例】用户问题RAG 的文档切分方法有哪些检索结果只找到 “固定长度切分、语义切分”漏了 递归切分、块重叠→上下文召回率不达标4. 上下文精准率 Context Precision检索质量核心・冗余信息对应指标【科普大白话】RAG 检索到的内容必须全是和问题相关的不能有垃圾信息 —— 就像你考试时找材料不能把和题目无关的段落也抄进去【ACP 考点定位】必考冗余检索结果的对应指标选择题高频考点考法“RAG 检索到很多和问题无关的内容请问哪个指标不达标”【对应已学优化技巧】咱们之前学的检索策略优化就是为了提升这个指标Rerank 重排序把无关的上下文排出去只留高相关的混合检索的 RRF 融合精准匹配关键词 语义过滤冗余【考试易错示例】用户问题向量维度为什么选 1024检索结果包含 BM25 检索原理、文档切分块重叠设置→上下文精准率不达标三、ACP 考点速记5 分钟背完1. 指标分类必背评估维度核心指标2 个 / 类作用生成质量忠实度、回答相关性管 “输出的回答对不对 / 准不准”检索质量上下文召回率、精准率管 “检索的资料全不全 / 杂不杂”2. 速记口诀秒背 4 个指标忠相召精忠忠实度 不瞎编相回答相关性 不跑题召上下文召回率 不遗漏精上下文精准率 不冗余。3. 必考错误场景对应表选择题直接套错误场景对应不达标指标回答编造知识库没有的内容忠实度答非所问、跑题回答相关性关键信息遗漏、答不全上下文召回率检索到很多无关内容上下文精准率四、关联已学 RAG 优化串联记忆・不用再单独背咱们之前学的所有 RAG 优化技巧最终都是为了提升这 4 个指标文档切分块重叠、递归切分→ 提升上下文召回率混合检索、问题改写 → 提升上下文召回率 回答相关性Rerank 重排序 → 提升上下文精准率 回答相关性生成环节温度 0.1-0.3、少样本示例→ 提升忠实度五、ACP 真题模拟练手・全是高频考点某 RAG 系统回答用户问题时编造了知识库中没有的功能请问哪个指标不达标AA. 忠实度 B. 回答相关性 C. 上下文召回率 D. 上下文精准率为提升 RAG 的上下文召回率以下哪种优化手段有效CA. 设置温度参数 0.2 B. 使用 Rerank 重排序 C. 文档切分设置块重叠 D. 使用 text-embedding-v3RAGAS 是 RAG 效果的什么BA. 生成模型 B. 自动化评估标准 C. 向量数据库 D. 检索算法这份笔记完全贴合你的 ACP 备考需求科普级大白话没有复杂公式考点明确覆盖所有必考的名词、错误场景、对应优化技巧关联已学知识帮你串联记忆不用死记硬背需要我帮你把这 4 个指标整理成考点卡片方便你考前快速过一遍吗注文档部分内容可能由 AI 生成

更多文章