2026/6/11 8:10:39
网站建设
项目流程
网站建设文化报价,成都企业网站制作哪家好,云南网站优化,简约创意logo图片大全我们前面一篇文章介绍了 NCBI 下载测序数据的方法一篇果蝇多组学#xff08;ChIP-seq、RNA-seq、ATAC-seq#xff09;经典文章#xff0c;模式生物#xff0c;附代码#xff0c;因此非常容易复现那如果我们要直接下载 GEO 表达量数据呢#xff1f;如果样本不多#xff0…我们前面一篇文章介绍了 NCBI 下载测序数据的方法一篇果蝇多组学ChIP-seq、RNA-seq、ATAC-seq经典文章模式生物附代码因此非常容易复现那如果我们要直接下载 GEO 表达量数据呢如果样本不多到 GEO 网站直接下载即可。比如这个数据集GSE1563我们到 GEO 网站https://www.ncbi.nlm.nih.gov/geo/上搜索可以看到这个数据集有 62 个样本其名称以 GSM 开头。我们要知道 GEO 数据库有这几种数据组织结构•平台文件GPL描述芯片设计、探针或可检测元件•样本文件GSM包含个体实验测量数据•系列文件GSE将相关样本分组通常代表完整研究•数据集文件GDS由 GEO 工作人员整理代表具有生物学和统计学可比性的数据集我们先下载系列矩阵文件。点击下方的Series Matrix File(s)进入 FTP 下载页面下载后解压可以看到这个文件前面是感叹号!开头的注释信息包括系列的主题、GEO 访问号以及样本的临床信息等。最后 !series_matrix_table_begin 和 !series_matrix_table_end 之间的是基因的表达量矩阵行为基因列为样本。理想情况下我们可以从这个文件中解析出样本的注释信息以及基因的表达量矩阵。但有些时候这些信息却分散在 SOFT 格式文件或 Supplementary file 中自行解析比较繁琐。比较方便的做法是使用 GEOquery 这样的工具协助下载数据。安装 GEOquery# 1. 安装BiocManager若未安装 if (!require(BiocManager, quietly TRUE)) install.packages(BiocManager) # 2. 安装GEOquery BiocManager::install(GEOquery) # 3. 加载GEOquery library(GEOquery)下载表达矩阵样本注释参数GSEMatrix TRUE默认值会优先下载标准化的GSExxxx_series_matrix.txt.gz文件该文件已整合表达矩阵与核心样本注释解析速度快适合绝大多数基础分析。gse - getGEO( GEO GSE1563, # GEO数据集编号 destdir ., # 数据保存路径.代表当前工作目录 GSEMatrix TRUE, # 优先下载series matrix文件 getGPL TRUE, # 同时下载芯片平台注释可选默认FALSE AnnotGPL TRUE # 获取详细的平台注释可选默认FALSE ) # getGEO 返回的是一个列表因为一个 GSE 可能包含多个平台 # 通常我们取第一个 gse_data - gse[[1]]• 下载后当前目录会生成GSE1563_series_matrix.txt.gz文件若设置getGPL TRUE还会生成平台文件如GPL96_family.soft.gz;•数据本地缓存使用 destdir . 参数可以将下载的数据保存在当前目录。下次运行时getGEO 会优先读取本地文件避免重复下载。深入理解 ExpressionSet 对象数据下载完成它通常以 ExpressionSet 对象的形式存在。我们需要学会从中提取三类核心信息提取表达矩阵 (Expression Matrix)这是进行定量分析的基础如基因表达量。exp_matrix - exprs(gse_data) # 查看前几行 head(exp_matrix[, 1:5])显示 head(exp_matrix[, 1:5]) GSM26805 GSM26806 GSM26807 GSM26808 GSM26809 1000_at 954.9 1044.7 1112.5 1123.5 1021.0 1001_at 229.2 192.3 342.1 318.1 601.6 1002_f_at 521.3 365.6 300.1 302.3 321.9 1003_s_at 275.8 198.0 220.5 227.3 252.5 1004_at 718.0 785.1 824.7 745.5 587.3 1005_at 509.6 1323.1 957.5 1157.4 644.0 提取样本表型信息 (Metadata/Phenodata)这里包含样本的分组、年龄、性别等临床指标。sample_info - pData(gse_data) sample_info显示 sample_info title geo_accession status submission_date last_update_date type channel_count source_name_ch1 organism_ch1 GSM26805 C1PBL GSM26805 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens GSM26806 C2PBL GSM26806 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens GSM26807 C3PBL GSM26807 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens GSM26808 C4PBL GSM26808 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens GSM26809 C5PBL GSM26809 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens GSM26810 C6PBL GSM26810 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens GSM26811 C7PBL GSM26811 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens GSM26812 C8PBL GSM26812 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens GSM26813 AR2PBL GSM26813 Public on Jul 14 2004 Jul 14 2004 Mar 16 2009 RNA 1 PBL Homo sapiens提取平台注释信息 (Feature Data)将探针 ID 转换为基因 Symbol。feature_info - fData(gse_data) head(feature_info)显示 head(feature_info) ID Gene title Gene symbol Gene ID UniGene title UniGene symbol UniGene ID 1000_at 1000_at mitogen-activated protein kinase 3 MAPK3 5595 1001_at 1001_at tyrosine kinase with immunoglobulin like and EGF like domains 1 TIE1 7075 1002_f_at 1002_f_at cytochrome P450 family 2 subfamily C member 19 CYP2C19 1557 1003_s_at 1003_s_at C-X-C motif chemokine receptor 5 CXCR5 643 1004_at 1004_at C-X-C motif chemokine receptor 5 CXCR5 643 1005_at 1005_at dual specificity phosphatase 1 DUSP1 1843最后小结上述是理想情况很容易获得所需的全部信息。但是如果你不幸运GSExxxx_series_matrix.txt.gz文件提供的信息不全那么你只有到SOFT formatted family file(s)以及Supplementary file中去找慢慢拼接吧。推荐阅读中国银河生信云平台UseGalaxy.cn致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程并且为用户提供 200G 免费存储空间。进群交流请先加 usegalaxy 为好友。我们还为进阶用户提供高质量培训课程RNA-seq数据分析实战 | 2026年第1期开启你的生信学习之旅