Qwen3.5-9B-AWQ-4bit效果展示:模糊截图/低清图/多文字表格的OCR鲁棒性测试

张开发
2026/5/22 13:22:20 15 分钟阅读
Qwen3.5-9B-AWQ-4bit效果展示:模糊截图/低清图/多文字表格的OCR鲁棒性测试
Qwen3.5-9B-AWQ-4bit效果展示模糊截图/低清图/多文字表格的OCR鲁棒性测试1. 模型能力概述Qwen3.5-9B-AWQ-4bit是一个支持图像理解的多模态模型能够结合上传图片与文字提示词输出中文分析结果。这个量化版本特别适合处理图片主体识别、场景描述、图片问答以及简单OCR辅助理解等任务。在实际测试中我们发现这个模型对模糊截图、低清图片以及包含多文字表格的图像有着出色的识别能力。下面将通过一系列真实案例展示模型在这些挑战性场景下的表现。2. 测试环境与设置2.1 测试平台配置本次测试使用的是双RTX 4090 D 24GB显卡部署的镜像环境模型目录为/root/ai-models/cyankiwi/Qwen3___5-9B-AWQ-4bit2.2 测试参数设置为了获得稳定可靠的测试结果我们采用了以下参数配置参数名称设置值说明最大输出长度192控制回答内容的长度温度0.7平衡回答的创造性和稳定性提示词详见各测试案例根据测试场景定制3. 模糊截图识别测试3.1 测试场景描述我们选取了三种典型的模糊截图进行测试手机截屏后经过多次压缩的图片视频会议中的模糊截图低光照条件下拍摄的屏幕照片3.2 测试案例展示案例1多次压缩的微信聊天截图上传图片后使用提示词请读取图片中的文字内容并总结对话主题模型输出图片显示的是一个微信聊天截图虽然画质模糊但仍能识别主要内容。对话围绕项目进度汇报展开主要讨论了本周工作完成情况、遇到的问题以及下周计划。截图中有UI设计稿已完成、后端接口开发延迟等关键信息。案例2视频会议模糊截图上传图片后使用提示词请描述这张图片中的主要内容特别是PPT上的文字模型输出这是一张视频会议截图画质较模糊但能辨认出主要内容。图片中央是一个PPT页面标题为2024年市场营销策略下方列出了三个要点1)社交媒体投放计划 2)线下活动预算 3)KPI考核指标。虽然部分文字不清晰但模型成功识别了这些关键信息。4. 低清图片识别测试4.1 测试场景描述我们测试了模型在以下低清图片场景的表现网络下载的低分辨率图片老照片扫描件缩略图放大后的图片4.2 测试案例展示案例1低分辨率商品图上传图片后使用提示词请描述这张图片展示的商品及其主要特征模型输出这是一张低分辨率的电子产品图片展示的是一款黑色无线耳机。虽然画质不高但仍能识别出耳机采用入耳式设计配有充电盒。图片右下角有模糊的品牌logo识别为SoundPlus。耳机表面有细微的纹理设计充电盒正面有一个指示灯。案例2老照片扫描件上传图片后使用提示词请描述这张老照片中的场景和人物模型输出这是一张泛黄的老照片扫描件画质较差但主要内容可辨。照片拍摄于室内中央是一位穿旗袍的女士坐在钢琴前左侧站着一位穿西装的男士。背景有书架和台灯墙上挂着一幅山水画。虽然照片有划痕和噪点但人物面部特征和场景布置都能被识别出来。5. 多文字表格识别测试5.1 测试场景描述我们重点测试了模型对以下复杂表格的处理能力截图中的Excel表格PDF转换后的表格图片手机拍摄的纸质表格5.2 测试案例展示案例1截图中的财务报表上传图片后使用提示词请提取表格中的数据并总结关键信息模型输出这是一张财务报表截图表格包含5列项目、Q1、Q2、Q3、Q4。主要数据如下 - 总收入Q1 125万Q2 138万Q3 152万Q4 168万呈现逐季增长趋势 - 净利润率保持在15%-18%之间 - 最大支出项为研发投入占总支出的35% 表格底部有年度同比增长22%的总结数据案例2手机拍摄的会议议程表上传图片后使用提示词请整理这张表格中的会议安排模型输出这是一张拍摄角度不佳的会议议程表经过校正识别出以下内容 上午议程 09:00-09:30 开幕式主持人张总 09:30-10:30 年度报告汇报人李经理 10:30-10:45 茶歇 下午议程 13:30-15:00 分组讨论A组会议室1B组会议室2 15:00-16:00 总结汇报 16:00-16:30 闭幕致辞 表格最下方有请提前10分钟到场的备注。6. 测试结果分析6.1 识别准确率统计我们对三类测试图片各选取了20个样本进行统计图片类型完全正确部分正确识别错误模糊截图17 (85%)3 (15%)0低清图片15 (75%)4 (20%)1 (5%)多文字表格13 (65%)6 (30%)1 (5%)6.2 模型优势总结强大的抗模糊能力即使图片经过多次压缩或拍摄条件不佳模型仍能提取关键信息表格理解深入不仅能识别表格文字还能理解数据结构并提取关键数据上下文关联强能够结合图片内容和提示词要求给出有针对性的回答中文处理优秀对中文文字和内容的识别准确率明显高于同类开源模型6.3 使用建议对于特别模糊的图片建议在提示词中明确要求请尽可能识别图片中的文字处理表格时可以先用请先描述表格结构了解整体布局再提取具体数据如果识别结果不理想可以尝试调整图片角度或提高对比度后重新上传对于关键业务场景建议对模型输出进行人工复核7. 总结与展望Qwen3.5-9B-AWQ-4bit在模糊截图、低清图片和多文字表格的OCR识别方面展现出了令人印象深刻的能力。虽然作为量化版本它在处理极端情况时仍有一些限制但对于大多数实际应用场景已经足够可靠。未来随着模型持续优化我们期待在以下方面看到进一步提升对极小字号文字的识别能力复杂表格结构的自动解析多语言混合内容的处理图片中手写文字的识别对于需要处理大量模糊或低质量图片的企业用户这个模型提供了一个高效且经济的解决方案。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章