NTIRE 2026 Challenge on Efficient Super-Resolution——冠军方案解读

张开发
2026/4/13 12:38:03 15 分钟阅读

分享文章

NTIRE 2026 Challenge on Efficient Super-Resolution——冠军方案解读
NTIRE 2026 Challenge on Efficient Super-Resolution——冠军方案解读一. 简介NTIRE的全称为New Trends in Image Restoration and Enhancement Challenges即“图像复原和复原挑战中的新趋势”是CVPR(IEEE Conference on Computer Vision and Pattern Recognition)举办的极具影响力的计算机视觉底层任务比赛主要涉及的研究方向有图像超分辨率、图像去噪、去模糊、去摩尔纹、重建和去雾等。其中在2026年CVPR开展的NTIRE相关挑战有夜间图像去雾NightTime Image Dehazing图像阴影去除Image Shadow Removal3D内容超分辨率重建3D Content Super-Resolution光场图像超分Light Field Image Super-Resolution低光图像增强Low Light Image Enhancement图像去噪Image Denoising4倍图像超分辨率重建Image Super-Resolution (x4)遥感红外图像超分辨率重建Remote Sensing Infrared Image Super-Resolution高效超分辨率重建Efficient Super-Resolution3D内容复原和重建3D Restoration and Reconstruction高效真实世界去模糊Efficient Real-World Deblurring 。同时以上的这些挑战也蕴含着当前的一些研究难点及挑战需要研究学者们集思广益提出针对提升任务性能的想法为共同解决近年来的难题贡献出一份力量。本篇文章着重于NTIRE 2026高效超分辨率Efficient Super-Resolution挑战赛的冠军来自小米方案的解读总结报告中能够提升任务的tricks以期给相关的科研任务一些启发。二、高效超分比赛情况1. 参赛队伍成绩共有95名参与者注册参加比赛15个团队成绩有效。综合评定标准下几个有特色的队伍成绩如下排名队伍综合得分依据特点1XiaomiMMRuntime 第 1 参数量第 5 FLOPs 第 6综合冠军Runtime 主导2BOE AIoTRuntime 第 3 参数量第 6 FLOPs 第 7综合第二3PKDSRRuntime 第 4 参数量第 7 FLOPs 第 8综合第三亮点今年的综合排名明显向Runtime倾斜与去年更均衡的打法形成对比。XiaomiMM 并非参数量或 FLOPs 最优但凭借极致的运行速度夺冠。此外ZenoSR队伍的参数量排名第一仅为 XiaomiMM 的约 1/3但 runtime 明显更高在今年赛道的评价标准中较为不利说明“轻量 ≠ 快速”划重点。2. 主要ideas和架构硬件级优化与算子融合——高效模型瓶颈在内存带宽而非FLOPs。代表队伍XiaomiMM。网络剪枝 知识蒸馏——通过剪枝减少参数和运行时间结合知识蒸馏微调模型恢复性能。代表队伍BOE AIoT、PKDSR。单纯使用知识蒸馏——知识蒸馏作为独立训练策略。代表队伍VARH-AI、CUIT HTT、DISP。结构重参数化——训练时使用多个卷积分支推理时合并为单个卷积分支。代表队伍Just Try 、DISP。状态空间模型Mamba——结合CNN局部建模与Mamba全局依赖捕捉。代表队伍CUIT HTT 、WMESR。训练策略广泛采用多阶段渐进训练、基于FFT的频率损失、EMA权重滑动平均等技术用于进一步提升性能。三、冠军方案整体思路小米的方案基于SPAN和SPANF模型提出了SPANV2是一个轻量级纯 CNN 模型0.139M 参数专门针对高效超分任务设计。其核心目标是在极小参数量和低计算开销下尽可能提升重建质量。SPANV2 的网络结构如下近像素分支深度卷积输出 48 通道初始化等价于最近邻上采样深度特征提取5 个 SPABV2 块通道数 32特征融合拼接 48 通道 32 通道 → 80 通道 → 深度卷积 → 逐点卷积 → 48 通道重建PixelShuffle(×4) 输出 3×4H×4W。1. SPABV2 Block的结构设计输入x ∈ R C × H × W x∈\mathbb{R}^{C×H×W}x∈RC×H×W三层 3×3 卷积 ReLU 提取特征f31×1 卷积生成注意力图m输出y(xf3)⊙m与 SPAN 的 SPAB 相比唯一变化就是引入可学习的 1×1 注意力卷积。2. 方案创新2.1. Learned Attention可学习注意力机制问题SPAN 中的注意力是无参数的只能做非负的逐元素乘积缺乏通道混合能力。改进引入一个1×1 卷积生成通道混合矩阵m实现内容自适应的通道门控可正可负的注意力权重跨通道信息交互代价每层仅增加C 2 C^2C2个参数无需 softmax 或归一化。2.2. Fused CUDA Kernel融合 CUDA 算子问题高效模型瓶颈不在 FLOPs而在内存带宽。原始注意力三步操作1×1 conv、加法、乘法都要读写 DRAM效率低。改进将三步融合为单个 CUDA 核函数减少 3 倍的 DRAM 往返。优化手段共享内存、向量化加载、寄存器缓存、循环展开、通道专用核。2.3. Near-Pixel Upsampling Branch近像素上采样分支动机自然图像中低频成分占主导深度分支应专注于高频残差。实现初始化一个深度卷积分支行为等价于最近邻上采样 inductive bias 与深度特征分支融合让主网络专注学习高频细节该分支的权重仍然可训练可进一步适应数据3. 训练策略Stage 1多尺度预训练训练集FD2KFlickr2K DIV2Kbatch size大小8patch size大小256×256 → 512×512损失函数1.0×L11.00.05× FFT优化器AdamWlr10 − 3 10^{-3}10−3调度器余弦退火策略训练次数10 6 10^{6}106迭代数据增强随机水平翻转、随机90°旋转EMA权重指数滑动平均decay0.999Stage 2模型微调初始化Stage 1 的10 6 10^{6}106迭代权重训练集FD2KFlickr2K DIV2Kbatch size大小8patch size大小512×512损失函数5.0×MSE 3.0×梯度损失优化器AdamWlr5 × 10 − 4 5×10^{-4}5×10−4调度器余弦退火策略训练次数10 6 10^{6}106迭代EMA权重指数滑动平均decay0.999四、总结与亮点方面特点模型规模0.139M 参数极轻量核心创新可学习注意力 CUDA 融合 近像素分支计算效率针对高效模型内存带宽瓶颈优化训练策略两阶段训练多尺度预训练 精细微调损失设计第一阶段L1 FFT第二阶段MSE 梯度损失硬件适配自定义CUDA 核五、可借鉴之处对高效模型推理瓶颈的深刻理解与推理时间的相关性内存带宽 FLOPs近像素分支的设计思想强 inductive bias 可训练两阶段训练策略多尺度预训练 → 精细微调损失函数组合第一阶段L1 FFT第二阶段MSE 梯度损失融合算子对工程实现的要求高但收益明显。最后感谢小伙伴们的学习噢~

更多文章