生信全书 挑 第二节:GEO数据库

作者: Kururu1799 | 来源:发表于2020-06-06 00:04 被阅读0次

第二节:GEO 数据库

GEO,全称 Gene Expression Omnibus(基因表达综合数据库)

GEO 数据库收录的数据类型有:
image

1)基因芯片或高通量测序的基因表达数据,包括 ncRNA

2)基因芯片或高通量测序的 ChIP 数据

3)基因芯片或高通量测序的基因组甲基化数据

4)高通量实时定量 PCR 的数据

5)微阵列比较基因组杂交技术(arrayCGH)的基因组变异数据

6)单核苷酸多态性(SNP)芯片数据

7)基因表达系列分析(SAGE)的数据

8)蛋白芯片数据

9)十几组大规模平行测序 MPSS 数据

10)十几组质谱 MS 数据

11)其他

GEO 数据库的数据组织结构
GEO 数据库的数据组织结构

GEO 数据有五种:Platforms(平台)、Samples(样本)、Series(系列)、DataSets(数据集) 以及 Profiles(基因表达谱)

GEO DataSets

  • 以数据集为单位,存储整个实验的数据

  • Platforms(平台)、Samples(样本)、Series(系列)、DataSets (数据集)

  • 四种数据都有 GEO 专门分配的唯一编号(“G”+ 平台缩写 + 流水号),指向唯一的数据

    • Samples:是指实验中的样本,包括样本名称、类型、样本处理方案等信息及样本对应的检测数据,每个样本 分配一个编号,以“GSM”开头,如 GSM134584

    • Series:是将构成某个实验的相关样本集中到一个有生物意义的数据集,包括实验设计、描述、组别和样本等信息以及检测数据文件, 以“GSE”开头,如 GSE5764;

    • Platforms :是指高通量实验检测所用的工具,Platform包括平台名称、描述、阵列注释等信息和文件,平台的编号以“GPL”开头,如 GPL570;

    • DataSets:被分析好的 Series 数据,分配以“GDS”开头的编号, 如 GDS2635

GEO Profiles

  • 以基因为单位,一个基因在一次试验中的定量表达数据

    • Profiles: 都存储在 GEO Profiles 子数据库中,即存储单个基因在 DataSets 各分组中的表达谱,分配的是流水号,如 33759453
image

相关文章

网友评论

    本文标题:生信全书 挑 第二节:GEO数据库

    本文链接:https://www.haomeiwen.com/subject/mchazhtx.html