NTIRE 2026 Challenge on Efficient Super-Resolution——冠军方案解读

张开发

• 2026/4/13 12:38:03 • 15 分钟阅读

分享文章

NTIRE 2026 Challenge on Efficient Super-Resolution——冠军方案解读一. 简介NTIRE的全称为New Trends in Image Restoration and Enhancement Challenges即“图像复原和复原挑战中的新趋势”是CVPR(IEEE Conference on Computer Vision and Pattern Recognition)举办的极具影响力的计算机视觉底层任务比赛主要涉及的研究方向有图像超分辨率、图像去噪、去模糊、去摩尔纹、重建和去雾等。其中在2026年CVPR开展的NTIRE相关挑战有夜间图像去雾NightTime Image Dehazing图像阴影去除Image Shadow Removal3D内容超分辨率重建3D Content Super-Resolution光场图像超分Light Field Image Super-Resolution低光图像增强Low Light Image Enhancement图像去噪Image Denoising4倍图像超分辨率重建Image Super-Resolution (x4)遥感红外图像超分辨率重建Remote Sensing Infrared Image Super-Resolution高效超分辨率重建Efficient Super-Resolution3D内容复原和重建3D Restoration and Reconstruction高效真实世界去模糊Efficient Real-World Deblurring 。同时以上的这些挑战也蕴含着当前的一些研究难点及挑战需要研究学者们集思广益提出针对提升任务性能的想法为共同解决近年来的难题贡献出一份力量。本篇文章着重于NTIRE 2026高效超分辨率Efficient Super-Resolution挑战赛的冠军来自小米方案的解读总结报告中能够提升任务的tricks以期给相关的科研任务一些启发。二、高效超分比赛情况1. 参赛队伍成绩共有95名参与者注册参加比赛15个团队成绩有效。综合评定标准下几个有特色的队伍成绩如下排名队伍综合得分依据特点1XiaomiMMRuntime 第 1 参数量第 5 FLOPs 第 6综合冠军Runtime 主导2BOE AIoTRuntime 第 3 参数量第 6 FLOPs 第 7综合第二3PKDSRRuntime 第 4 参数量第 7 FLOPs 第 8综合第三亮点今年的综合排名明显向Runtime倾斜与去年更均衡的打法形成对比。XiaomiMM 并非参数量或 FLOPs 最优但凭借极致的运行速度夺冠。此外ZenoSR队伍的参数量排名第一仅为 XiaomiMM 的约 1/3但 runtime 明显更高在今年赛道的评价标准中较为不利说明“轻量 ≠ 快速”划重点。2. 主要ideas和架构硬件级优化与算子融合——高效模型瓶颈在内存带宽而非FLOPs。代表队伍XiaomiMM。网络剪枝知识蒸馏——通过剪枝减少参数和运行时间结合知识蒸馏微调模型恢复性能。代表队伍BOE AIoT、PKDSR。单纯使用知识蒸馏——知识蒸馏作为独立训练策略。代表队伍VARH-AI、CUIT HTT、DISP。结构重参数化——训练时使用多个卷积分支推理时合并为单个卷积分支。代表队伍Just Try 、DISP。状态空间模型Mamba——结合CNN局部建模与Mamba全局依赖捕捉。代表队伍CUIT HTT 、WMESR。训练策略广泛采用多阶段渐进训练、基于FFT的频率损失、EMA权重滑动平均等技术用于进一步提升性能。三、冠军方案整体思路小米的方案基于SPAN和SPANF模型提出了SPANV2是一个轻量级纯 CNN 模型0.139M 参数专门针对高效超分任务设计。其核心目标是在极小参数量和低计算开销下尽可能提升重建质量。SPANV2 的网络结构如下近像素分支深度卷积输出 48 通道初始化等价于最近邻上采样深度特征提取5 个 SPABV2 块通道数 32特征融合拼接 48 通道 32 通道 → 80 通道 → 深度卷积 → 逐点卷积 → 48 通道重建PixelShuffle(×4) 输出 3×4H×4W。1. SPABV2 Block的结构设计输入x ∈ R C × H × W x∈\mathbb{R}^{C×H×W}x∈RC×H×W三层 3×3 卷积 ReLU 提取特征f31×1 卷积生成注意力图m输出y(xf3)⊙m与 SPAN 的 SPAB 相比唯一变化就是引入可学习的 1×1 注意力卷积。2. 方案创新2.1. Learned Attention可学习注意力机制问题SPAN 中的注意力是无参数的只能做非负的逐元素乘积缺乏通道混合能力。改进引入一个1×1 卷积生成通道混合矩阵m实现内容自适应的通道门控可正可负的注意力权重跨通道信息交互代价每层仅增加C 2 C^2C2个参数无需 softmax 或归一化。2.2. Fused CUDA Kernel融合 CUDA 算子问题高效模型瓶颈不在 FLOPs而在内存带宽。原始注意力三步操作1×1 conv、加法、乘法都要读写 DRAM效率低。改进将三步融合为单个 CUDA 核函数减少 3 倍的 DRAM 往返。优化手段共享内存、向量化加载、寄存器缓存、循环展开、通道专用核。2.3. Near-Pixel Upsampling Branch近像素上采样分支动机自然图像中低频成分占主导深度分支应专注于高频残差。实现初始化一个深度卷积分支行为等价于最近邻上采样 inductive bias 与深度特征分支融合让主网络专注学习高频细节该分支的权重仍然可训练可进一步适应数据3. 训练策略Stage 1多尺度预训练训练集FD2KFlickr2K DIV2Kbatch size大小8patch size大小256×256 → 512×512损失函数1.0×L11.00.05× FFT优化器AdamWlr10 − 3 10^{-3}10−3调度器余弦退火策略训练次数10 6 10^{6}106迭代数据增强随机水平翻转、随机90°旋转EMA权重指数滑动平均decay0.999Stage 2模型微调初始化Stage 1 的10 6 10^{6}106迭代权重训练集FD2KFlickr2K DIV2Kbatch size大小8patch size大小512×512损失函数5.0×MSE 3.0×梯度损失优化器AdamWlr5 × 10 − 4 5×10^{-4}5×10−4调度器余弦退火策略训练次数10 6 10^{6}106迭代EMA权重指数滑动平均decay0.999四、总结与亮点方面特点模型规模0.139M 参数极轻量核心创新可学习注意力 CUDA 融合近像素分支计算效率针对高效模型内存带宽瓶颈优化训练策略两阶段训练多尺度预训练精细微调损失设计第一阶段L1 FFT第二阶段MSE 梯度损失硬件适配自定义CUDA 核五、可借鉴之处对高效模型推理瓶颈的深刻理解与推理时间的相关性内存带宽 FLOPs近像素分支的设计思想强 inductive bias 可训练两阶段训练策略多尺度预训练 → 精细微调损失函数组合第一阶段L1 FFT第二阶段MSE 梯度损失融合算子对工程实现的要求高但收益明显。最后感谢小伙伴们的学习噢~

NTIRE 2026 Challenge on Efficient Super-Resolution——冠军方案解读

最新文章

番茄小说下载器完整指南：免费工具让你永久保存心爱小说

毕业倒计时焦虑？从开题到答辩的全流程数字化伙伴来了！

Nacos漏洞利用工具V3.0.5深度解析：从认证绕到内存马攻击

张雪冠军复刻赛车，起拍1分钟500万秒结束！

DeepSeek-OCR 2在计算机网络日志分析中的应用

从抓包到洞察：用Wireshark实战解析IPv4网络通信全貌

推荐文章

DE1-SoC实战指南：在Qsys/Platform中集成GHRD工程与扩展SPI外设——（de1教程2.5节）

5个核心技术维度解析Cursor Pro激活工具：从机器标识到订阅验证的完整技术栈

vLLM推理引擎教程7-CUDA Graph：从原理到实战的性能优化指南

Rust 泛型与特征约束的应用

利用 milvus-backup 完成从单机到分布式 Milvus 的无缝数据迁移实战

风险管理的识别评估与应对策略

相关文章

Java PTA练习避坑指南：如何避免PersonOverride类中的常见错误（含完整代码示例）

DanKoe 视频笔记：成为失败者：重新定义成功与快乐 [特殊字符]

Caxa二次开发环境配置避坑指南：从ObjectCRX安装到HelloWorld运行

5分钟极速部署：Sakura启动器如何让AI翻译变得像聊天一样简单？

LuckyLilliaBot深度解析：高性能NTQQ OneBot 11协议框架架构设计与实现

OpenClaw 2026年3月史诗级迭代全景深度分析报告：从危机到新生，从工具到生态操作系统

分享文章

更多文章

OpCore Simplify：如何一站式解决黑苹果OpenCore EFI配置难题？

使用MedGemma 1.5构建医疗问答知识库

Qwen2.5-VL-7B-Instruct多模型对比：性能与适用场景分析

别再混淆了！PyTorch回归任务中SmoothL1Loss的正确输入是‘预测值’，不是‘logits’

系统设计注意事项

【咸鱼之王】H5修复版：从零到一，宝塔面板+Nginx+Mysql一站式部署实战

【AIAgent记忆可靠性白皮书】：IEEE标准级记忆校验协议、CRDT同步算法落地实践，及3类高危记忆漂移预警阈值

Autoware.Universe规划仿真避坑指南：RViz2里小车模型方向不对、尺寸不符的快速排查与修复

锐捷睿易：ACL在企业网络隔离中的实战配置指南

PSR-13性能优化指南：大规模链接处理的最佳实践与技巧

大模型Agent落地失败率高达68%？SITS2026首席架构师亲授：4步解耦法重构可控、可观、可测的生产级Agent架构（2026工业级标准）

从照片到高精度模型：RealityCapture全流程实战解析

NTIRE 2026 Challenge on Efficient Super-Resolution——冠军方案解读

最新文章

番茄小说下载器完整指南：免费工具让你永久保存心爱小说

毕业倒计时焦虑？从开题到答辩的全流程数字化伙伴来了！

Nacos漏洞利用工具V3.0.5深度解析：从认证绕到内存马攻击

张雪冠军复刻赛车，起拍1分钟500万秒结束 ！

DeepSeek-OCR 2在计算机网络日志分析中的应用

从抓包到洞察：用Wireshark实战解析IPv4网络通信全貌

推荐文章

DE1-SoC实战指南：在Qsys/Platform中集成GHRD工程与扩展SPI外设——（de1教程2.5节）

5个核心技术维度解析Cursor Pro激活工具：从机器标识到订阅验证的完整技术栈

vLLM推理引擎教程7-CUDA Graph：从原理到实战的性能优化指南

Rust 泛型与特征约束的应用

利用 milvus-backup 完成从单机到分布式 Milvus 的无缝数据迁移实战

风险管理的识别评估与应对策略

相关文章

Java PTA练习避坑指南：如何避免PersonOverride类中的常见错误（含完整代码示例）

DanKoe 视频笔记：成为失败者：重新定义成功与快乐 [特殊字符]

Caxa二次开发环境配置避坑指南：从ObjectCRX安装到HelloWorld运行

5分钟极速部署：Sakura启动器如何让AI翻译变得像聊天一样简单？

LuckyLilliaBot深度解析：高性能NTQQ OneBot 11协议框架架构设计与实现

OpenClaw 2026年3月史诗级迭代全景深度分析报告：从危机到新生，从工具到生态操作系统

分享文章

更多文章

张雪冠军复刻赛车，起拍1分钟500万秒结束！