基于LLM智能问答系统【阿里云：天池比赛】

张开发

• 2026/6/6 9:13:50 • 15 分钟阅读

分享文章

天池比赛：基于LLM智能问答系统学习赛https://tianchi.aliyun.com/competition/entrance/532172/information项目介绍：从数据库及pdf文档中检索出用户问题对应的答案关键技术：基于GPT模型的Text2Sql，向量召回排序、文本生成、NER实体识别关键优化项：动态SQL链路优化sql样例中对数据库字段的覆盖度，语义检索链路如下：GPT指令优化：调整指令中的角色、样例、输出结果格式pdf文件拆分：长度调整、pdf文件内容标准化（去掉空格，特殊字符处理）query处理：去停用词（根据/知道/什么...）、去掉截止日期技术流程：使用Qwen识别问题中的公司名实体，有公司名的走语义检索，无公司名的走结构化召回1）结构化召回：Qwen根据问题动态生成sql(先微调使用最佳的case生成指令)，执行sql获取结果数值，把结果数值与问题给到Qwen生成最终结果2）语义检索：先识别出pdf文件中对应的公司名称根据问题中的公司名称找到对应的招股说明书pdf文件把pdf文件切分成段N个文本段、为每个文本段生成向量集合A把问题生成向量B使用余弦相似度比较2类向量并排序得到top5，把top5合并成一个文本T把问题与文本T生成提示词送给Qwen生成结果后续优化项包括不限于：1）提升召回率-主要是语义召回，可以考虑适当增加向量返回的结果数量，比如从top5提升到top8。2）提升召回率-优化向量相似度匹配：考虑使用专业的向量模型生成向量，比如bge等3）提升准确率：主要是语义召回：可以优化提示词+对问题及检索的文本进行归一化、适当考虑增加精排进一步提升准确率4）模型微调：动态生成sql这块可以使用微调后的模型5）模型切换：现在使用的是Qwen-7B-Chat，可以尝试使用参数更大模型或金融相关的专业模型得分：综合：78.49结构化召回：89.05语义：62.65排名：31/3502说明：本文源码下载：https://download.csdn.net/download/love254443233/90106437参考的baseline代码=大模型说的队（源码FinQwen）Tongyi-EconML/FinQwen: FinQwen: 致力于构建一个开放、稳定、高质量的金融大模型项目，基于大模型搭建金融场景智能问答系统，利用开源开放来促进「AI+金融」。https://github.com/Tongyi-EconML/FinQwen关键源码：提取实体：import csv import pandas as pd import numpy as np import re import copy from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download from modelscope import GenerationConfig model_dir = '/data/nfs/baozhi/models/Qwen-7B-Chat' # Note: The default behavior now has injection attack prevention off. tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True) new_question_file_dir = 'intermediate/A01_question_classify.csv' new_question_file = pd.read_csv(new_question_file_dir,delimiter = ",",header = 0) company_file_dir = 'files/AF0_pdf_to_company.csv' company_file = pd.read_csv(company_file_dir,delimiter = ",",header = 0) company_data_csv_list = list() company_index_list = list() company_name_list = list() for cyc in range(len(company_file)): company_name_list.append(company_file[cyc:cyc+1]['公司名称'][cyc]) company_data_csv_list.append(company_file[cyc:cyc+1]['csv文件名'][cyc]) temp_index_cp = tokenizer(company_file[cyc:cyc+1]['公司名称'][cyc]) temp_index_cp = temp_index_cp['input_ids'] company_index_list.append(temp_index_cp) g = open('intermediate/A02_question_classify_entity.csv', 'w', newline='', encoding = 'utf-8-sig') csvwriter = csv.writer(g) csvwriter.writerow(['问题id','问题','分类','对应实体','csv文件名']) for cyc in range(len(new_question_file)): tempw_id = new_question_file[cyc:cyc+1]['问题id'][cyc] tempw_q = new_question_file[cyc:cyc+1]['问题'][cyc] tempw_q_class = new_question_

更多文章

前端开发 2026/6/3 10:45:08

墨语灵犀33语种翻译API文档：OpenAPI 3.0规范与SDK生成

墨语灵犀33语种翻译API文档：OpenAPI 3.0规范与SDK生成 1. 产品概述墨语灵犀（Moyu Lingxi）是一款基于腾讯混元大模型底座开发的深度翻译工具，支持33种语言的高质量互译。与传统翻译工具不同，墨语灵犀将前沿AI翻译技术…

百度网盘提取码5秒智能破解：高效自动化资源获取终极指南【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘加密资源而烦恼吗？baidupankey作为一款专业的百度网盘提取码智能解析工具&#x…

张开发

前端开发 2026/5/13 16:51:37

OpenClaw云端体验方案：星图GPU一键部署Qwen3.5-9B镜像

OpenClaw云端体验方案：星图GPU一键部署Qwen3.5-9B镜像 1. 为什么选择云端体验OpenClaw 第一次接触OpenClaw时，我被它的自动化能力深深吸引，但本地安装过程却让我这个非专业开发者望而却步。记得当时在macOS上折腾了整整一个下午&#xff0c…

张开发

基于LLM智能问答系统【阿里云：天池比赛】

最新文章

.NET 11原生AI推理引擎深度解密：如何绕过ML.NET抽象层直驱ONNX Runtime 1.16 SIMD指令集？

告别BIGMAP水印！免费搭建GeoServer离线地图服务：从TIF/SHP数据到OpenLayers展示的保姆级教程

FPGA项目选RAM别纠结！单口、伪双口、真双口RAM性能实测对比（基于Artix-7开发板）

Day05：大模型生产环境常见问题与排障科普笔记

告别Makefile烦恼：用STM32CubeIDE一站式搞定ROS1 rosserial库的集成与编译

iOS企业应用分发太麻烦？手把手教你用MDM实现从上传IPA到员工手机自动安装的全链路

推荐文章

相关文章

分享文章

更多文章

墨语灵犀33语种翻译API文档：OpenAPI 3.0规范与SDK生成

TranslucentTB：重新定义Windows任务栏的4种视觉增强方案

QMCDecode：解密QQ音乐加密格式的开源解决方案

快速上手Qwen3-ASR-0.6B：无需代码基础，Gradio界面点点鼠标就能用

C++高性能推理服务：封装Kandinsky-5.0-I2V-Lite-5s为gRPC微服务

Linux服务器上保姆级部署ComfyUI+Flux：从Anaconda环境到低显存GGUF模型实战

终极指南：如何在Windows 11上完美运行Android应用

打造活跃开源社区的终极指南：如何让Polr URL短链接项目持续繁荣

python gitpython

企业级内容生产：基于国风美学模型与MySQL的素材管理系统

百度网盘提取码5秒智能破解：高效自动化资源获取终极指南

OpenClaw云端体验方案：星图GPU一键部署Qwen3.5-9B镜像