从芯片到NGS:GEO数据库界面下的数据定位与差异分析实战

张开发
2026/4/11 16:35:24 15 分钟阅读

分享文章

从芯片到NGS:GEO数据库界面下的数据定位与差异分析实战
1. GEO数据库入门芯片与NGS数据的藏宝图第一次打开GEO数据库时我就像站在图书馆的中央大厅——四周都是书架却不知道从哪本开始翻起。这个由NCBI维护的基因表达数据库存放着全球研究者上传的芯片和测序数据但不同类型的实验数据就像被分门别类放在不同区域的书本。GDS、GSE、GSM、GPL这四个字母组合是理解GEO的关键。打个比方GSEGEO Series就像一本完整的实验报告书里面包含多个GSMGEO Sample样本数据而GPLGEO Platform则是实验使用的仪器说明书告诉你芯片型号或测序平台。至于GDSGEO Dataset相当于图书管理员整理好的专题合集不过实际使用频率不高。芯片和NGS数据在GEO中的存放方式有明显差异。去年我指导实验室新生时发现90%的初期困惑都源于找不到数据存放位置。芯片数据的原始文件通常藏在supplementary file的raw data里而NGS数据往往需要跳转到SRA数据库下载fastq文件。更麻烦的是表达矩阵——芯片数据喜欢躲在Download family栏目NGS数据却偏爱Supplementary file。2. 芯片数据实战从下载到差异分析的完整路径2.1 数据定位技巧记得第一次下载芯片数据时我在GEO界面转悠了半小时。后来发现规律Affymetrix芯片数据通常有三个关键文件需要下载原始数据.CEL文件表达矩阵通常是series_matrix.txt平台注释文件GPL开头的soft文件实操中容易踩的坑是忽略平台注释。有次我分析GSE12345时直接用了矩阵里的表达值后来才发现行名都是探针ID。这时候就需要用GPL文件进行基因符号转换可以用R的getGEO()函数自动获取library(GEOquery) gset - getGEO(GSE12345, GSEMatrixTRUE) exprs - exprs(gset[[1]]) # 获取表达矩阵 featureData - fData(gset[[1]]) # 获取探针注释2.2 差异分析原理与limma实战芯片数据适合使用limma包进行分析这就像用精密天平测量细微差别。其核心原理是通过线性模型拟合数据再用经验贝叶斯方法缩小方差估计。下面是个典型分析流程library(limma) design - model.matrix(~0group) # 构建实验设计矩阵 fit - lmFit(exprs, design) # 拟合线性模型 fit - eBayes(fit) # 贝叶斯调整 topTable(fit, coef2, n10) # 提取差异最显著的10个基因要注意的是芯片数据预处理很关键。Affymetrix数据需要用rma或mas5标准化Illumina数据可能需要normalizeBetweenArrays处理。有次我跳过这个步骤直接分析结果得到了大量假阳性差异基因。3. NGS数据解析从原始序列到差异表达3.1 数据获取与预处理NGS数据就像装在密码箱里的宝藏——需要多道工序才能取出。与芯片数据不同NGS原始数据通常存放在SRA数据库。在GEO页面找到SRA链接后你会遇到SRR开头的编号这时可以用prefetch工具下载prefetch SRR1234567 # 下载SRA文件 fastq-dump --split-files SRR1234567.sra # 转换为fastq格式我强烈建议新手使用Galaxy或NCBI的SRA Toolkit图形界面命令行操作容易因版本问题报错。去年有个学生因为没加--split-files参数导致双端测序数据混在一起白白浪费了两天计算资源。3.2 计数矩阵生成与DESeq2分析NGS数据分析最关键的步骤是将序列比对到基因组并生成计数矩阵。虽然HISAT2featureCounts组合很流行但对新手我推荐Salmon——它速度更快且不需要完整比对salmon quant -i transcript_index -l A \ -1 sample_1.fastq.gz -2 sample_2.fastq.gz \ -o quants/sample得到计数矩阵后DESeq2是差异分析的首选。它的离散分布模型特别适合处理测序数据的技术变异。典型分析流程如下library(DESeq2) dds - DESeqDataSetFromMatrix(countData, colData, design~group) dds - DESeq(dds) res - results(dds)这里有个常见误区直接使用FPKM/TPM值做差异分析。实际上DESeq2需要原始计数因为其模型考虑了测序深度的影响。有篇Nature Methods论文就指出用标准化后的数据会导致假阳性率升高。4. 技术选择指南芯片还是NGS4.1 成本与实验设计的权衡帮实验室规划项目时我通常会画个决策树如果预算有限5万元且目标明确已知基因集选芯片如果需要探索新发现如lncRNA或需要更高灵敏度选NGS如果样本量很少如临床穿刺组织NGS的灵敏度优势更明显不过实际选择更复杂。去年有个糖尿病研究先用芯片筛选了200个候选基因再用NGS验证这种组合策略既节省成本又保证可靠性。4.2 分析流程的对比两种技术的数据特性决定了分析方法的不同特征芯片数据NGS数据数据分布连续近似正态离散泊松/负二项主流工具limmaDESeq2/edgeR预处理重点背景校正归一化质量过滤接头去除硬件需求普通电脑即可需要高性能计算资源有个容易忽视的点芯片数据通常不需要去除批次效应因为实验都在同一批芯片完成而NGS数据如果分多次上机必须用ComBat或sva包处理批次效应。

更多文章