华大研究院:小数据集细胞分割模型

张开发
2026/4/21 17:22:48 15 分钟阅读

分享文章

华大研究院:小数据集细胞分割模型
要点CSRefiner是款灵活的框架可对现有细胞分割模型进行微调显著提升分割精度、缩短标注耗时并增强生物学可解释性。组织特异性微调能够找回漏检细胞生成更连贯的空间图谱即便在海马区等复杂区域也可实现。CSRefiner在不同样本制备流程中表现稳健即便基础模型基于新鲜冷冻FF样本训练在石蜡包埋FFPE数据集上仍能取得稳定的性能提升。性能梯度分析将组织结构指标细胞密度、紧密度、边界清晰度与分割难度相关联为训练集设计提供参考依据。公开了3套高质量数据集包含配对图像、标注信息与表达矩阵作为社区资源用于方法基准测试与后续研发。https://github.com/STOmics/CSRefiner摘要空间组学技术的最新突破实现了亚细胞分辨率的转录组解析。通过对细胞核或细胞膜染色图像开展细胞分割研究者可获取单细胞水平的空间基因表达数据支撑后续生物学解读。基于深度学习的分割模型虽整体准确率优异但在全组织分析中仍存在短板尤其难以保障不同细胞群体的分割精度一致性。现有微调方案通常需要大规模重训练或仅适配特定模型架构限制了其在实际场景中的适配性与可扩展性。为解决上述问题本文提出用于全组织单细胞空间表达精准分析的轻量高效微调框架CSRefiner。该框架支持空间转录组领域主流分割模型的微调仅需极少量标注数据即可实现高精准分割。本研究验证了CSRefiner在多种染色类型下的优越性能以及与多款主流模型的兼容性。该框架兼顾操作简便性与分割鲁棒性为空间转录组学的实际应用提供了实用解决方案。limei1genomics.cnzhangying7genomics.cn#细胞分割 #微调 #空间组学材料与方法细胞分割性能评估指标表1细胞分割性能评估指标真阳性TP模型预测细胞与真实标注细胞精准匹配假阳性FP模型预测细胞无对应真实标注假阴性FN真实标注细胞未被模型检测。所有指标均以交并比IoU阈值 0.5 计算掩码匹配度。结果CSRefiner框架概述图1石蜡包埋DAPI染色小鼠脑切片的预训练/微调模型分割性能及CSRefiner工作流程A石蜡包埋DAPI染色小鼠脑切片图像分辨率0.5μm/像素及6个示例区域。B4款预训练模型Cellpose-细胞质、Cellpose-cpsam、StarDist-2D通用荧光模型、U-Net及其微调版本前缀「FT-」在6个示例区域含海马区与非海马区的分割结果。红色轮廓为人工标注真实结果黄色轮廓为模型预测分割边界。CCSRefiner工作流程示意图包含训练集制备、模型选择与微调、性能评估、cgef文件生成4大步骤。分割性能提升表2CSRefiner各模块运行时间与内存占用Cellpose-cpsam全图推理在单块NVIDIA Tesla T4 GPUCUDA 11.716GB显存运行其余实验在单块NVIDIA GeForce RTX 3090 GPUCUDA 12.224GB 显存运行。实验数据包含1张VisiumHD苏木精-伊红HE染色小鼠肺全切片23520×20580像素、1组20个256×256像素训练图像块。「训练集推理」指处理256×256像素图像块「全图推理」指处理23520×20580像素全切片。推理时间为命令执行至结果输出总耗时GPU/CPU峰值内存为任务期间最大内存占用。助力更深度的生物学发现图2CSRefiner优化分割性能与下游生物学分析结果A–E款代表性模型Cellpose-细胞质、Cellpose-cpsam、StarDist、U-Net微调前后分割性能定量评估。箱线图展示A精确率、B召回率、CF1 分数、D杰卡德指数、E戴斯系数的提升效果图中标注显著性线与P值1–3个星号分别对应P0.05、0.01、0.001。F全切片人工标注耗时约10天与CSRefiner全流程耗时约400分钟对比。G基于微调后StarDist模型生成的cgef矩阵经 cell2location注释的细胞类型空间图谱。H微调前后海马亚区分割与细胞注释可视化并与艾伦脑图谱海马区对照。I微调前后海马区各细胞亚型显著差异基因数量对比。J微调前后海马区标准化注释得分分布。K微调前后海马区细胞面积分布。L微调前后海马区各细胞亚型数量对比。M微调前后海马区单细胞基因检出数。N–Q微调前后海马齿状回1区Ext_Hpc_DG1细胞的基因本体富集分析气泡图中右侧气泡富集程度更强、红色越深显著性越高、气泡越大命中基因数越多堆积条形图展示各基因本体条目对应的贡献基因条形高度反映贡献强度橙色为仅微调前存在的条目/基因蓝色为微调前后均存在粉色为仅微调后存在。微调所需训练样本量的差异性图3 训练集规模与组织复杂度对分割性能的影响A使用不同数量标注细胞微调后StarDist在代表性海马测试区的性能右侧折线图展示不同训练细胞数对应的精确率、召回率、F1分数、杰卡德指数、戴斯系数。B–E所有海马测试区中款模型在不同训练集规模下的分割指标可视化。F同A在代表性非海马测试区评估。G–J所有非海马测试区中款模型在不同训练集规模下的分割指标可视化。K海马区与非海马区组织结构复杂度定量对比指标包括细胞平均间距、紧密度、密度、分布均匀性、形状复杂度、边缘对比度。数据套小鼠脑部数据集已提交至国家基因库数据库CNGBdb的国家基因库序列归档系统CNSA登录号为CNP0007731https://db.cngb.org/search/project/CNP0007731/由10x Genomics VisiumHD平台生成的小鼠肺部数据集https://www.10xgenomics.com/datasets/visium-hd-cytassist-gene-expression-mouse-lung-fresh-frozen已将上述数据集上传至Zenodo平台https://doi.org/10.5281/zenodo.17098314详细总结思维导图分割性能评估指标IoU0.5效率提升关键数字对比模型资源占用典型值参考Brief Bioinform. 2026 Jan 7;27(1):bbaf718. doi: 10.1093/bib/bbaf718.CSRefiner: a lightweight framework for fine-tuning cell segmentation models with small datasets260107CSRefiner.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。

更多文章