【实战 01】任务定义:从经营维度构建 Text2SQL Agent 评测基准

张开发
2026/4/7 13:55:24 15 分钟阅读

分享文章

【实战 01】任务定义:从经营维度构建 Text2SQL Agent 评测基准
0. 引言数据分析的“最后一公里”在大型集团的数字化实践中BI 看板解决了“看数”的问题但无法解决“问数”的即时性。业务人员如置业顾问、项目总、财务经理往往有大量碎片的、非标的数据需求。Text2SQL Agent 的使命就是将这些自然语言需求转化为精准的 SQL 逻辑。但作为 AI 产品经理我们首先要面对的是如何定义一套符合企业经营逻辑的“考卷”1. 业务场景深度建模Chinook 的企业化转译我们选择经典的 Chinook 数据库作为基准但在测评中我们将其抽象为三个核心经营领域人力资本管理 (HRM)关注组织架构、汇报链条及人员效能Employee表。客户生命周期 (CRM)关注客户分布、服务归属及复购转化Customer表。供应链与结算 (Supply Chain)关注 SKU 管理、订单流向及财务结算Track,Invoice等表。2. 指标拆解从“写对 SQL”到“算准指标”在企业环境下一个合格的 Text2SQL Agent 必须跨越三个逻辑高度高度 1基础检索事实查询。识别基础实体与属性。高度 2路径推理多维关联。理解业务流转。例如通过“支持人员”关联到“销售额”这中间涉及 CRM 与交易系统的跨表逻辑。高度 3经营逻辑复杂计算。处理自关联、嵌套聚合、时间维度的同比环比。3. 构建测试问题集为了量化评估不同 Agent 架构在真实业务场景下的表现我们基于经营分析的逻辑深度构建了一套多维度的基准测试集Benchmark。该测试集包含 10 个梯度化的问题难度跨度从 1 级基础检索到 5 级复杂决策。我们为每道题赋予了相应的权重分值总分 100 分旨在通过量化的‘综合得分’直观呈现不同架构在处理复杂 SQL 需求时的鲁棒性与准确率边界。编号难度测试问题描述核心考点建议分值Q11查找所有专辑名称包含 Greatest Hits 的艺术家名及其专辑标题。基础JOIN与模糊匹配5分Q22列出由员工 Jane Peacock 支持的所有客户姓名并按国家排序。基础跨表外键导航5分Q32统计每个流派歌曲的平均单价并找出平均单价高于 1.0 的流派。GROUP BY与HAVING8分Q43找出在所有播放列表中出现次数最多的前 3 个艺术家的名字。多对多关联穿透10分Q53统计 2024 年第一季度每个国家的销售总额并按金额降序排列。日期处理与聚合排序10分Q64识别出从未被任何客户购买过的歌曲名称及其所属专辑。差集逻辑(LEFT JOIN/IS NULL)12分Q74统计各城市平均订单额列出高于全球总平均订单额的城市。嵌套聚合/标量子查询12分Q84查找在 Brazil 市场贡献销售额最高的歌曲名称及其所属艺术家。长链路推理 (5表关联)12分Q95计算 2024 年全年每个媒体类型占总销售额的百分比。数学建模 (窗口函数/比例)13分Q105识别管理超过 3 名下属、且下属负责客户平均客单价低的管理人员。多级递归与复杂过滤13分合计---100分

更多文章