美文网首页GWAS群体基因组学习
GWAS分析-常用文件格式 (三)

GWAS分析-常用文件格式 (三)

作者: 杨博士聊生信 | 来源:发表于2021-05-14 00:18 被阅读0次

我们进行GWAS分析,必须得有数据,那么什么样的数据,什么样的数据格式才能保证GWAS正常分析呢。今天主要给大家分享一下进行GWAS分析常用到的几种数据格式。

(一).bim/.fam/*.bed格式为一组
*.bim文件, 总共6列

bim.png
第一列:Chr 染色体编号
第二列:SNP 标记名称
第三列:GD 遗传距离(摩尔根),一般情况写0即可
第四列:BPP 物理距离(单位:bp)
第五列:Allele 1 一般情况下为次要等位基因
第六列:Allele 2 一般情况下为主要等位基因

*.fam文件,总共6列


fam.png

第一列:FID Family ID
第二列:IID Within-family ID (不能是 '0')
第三列:PID Within-family ID of father ('0' if father isn't in dataset)
第四列:MID Within-family ID of mother ('0' if mother isn't in dataset)
第五列:性别 ('1' = male, '2' = female, '0' = unknown)
第六列:表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

*.bed文件
BED文件结构主要是二进制文件(not readable for humans),存储了群体的基因型数据。

(二).ped/.map格式为一组
ped文件, 总计6+2n列(n:总SNP数目)

ped.png
第一列:FID Family ID
第二列:IID Within-family ID (不能是 '0')
第三列:PID Within-family ID of father ('0' if father isn't in dataset)
第四列:MID Within-family ID of mother ('0' if mother isn't in dataset)
第五列:性别
第六列:表型
第七列-最后一列:每个样本对应所有标记的基因型

*.map文件,总计四列


map.png

第一列:Chr 染色体编号
第二列:SNP 标记名称
第三列:GD 遗传距离(摩尔根),一般情况写0即可
第四列:BPP 物理距离(单位:bp)

另外,GWAS分析中常见到的数据格式还包括.tfam/.tped, vcf,hapmap, gen/.sample格式,对于大部分格式,我们使用plink软件都可以将其互相转换,同时针对不同的模型和不同软件,基因型文件,表型文件,协变量文件可能会有些许差别,在今后分析过程中遇到具体情况会给大家再具体介绍。

往期回顾:
GWAS分析 (一)
https://www.jianshu.com/p/67e1878845e3
GWAS分析-曼哈顿图 (二)
https://www.jianshu.com/p/fa261b6045c2

参考

  1. https://www.cog-genomics.org/plink/1.9/formats#bed
  2. Marees AT, et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int. J. Methods Psychiatr. Res. 27, e1608 (2018).

相关文章

  • GWAS分析-常用文件格式 (三)

    我们进行GWAS分析,必须得有数据,那么什么样的数据,什么样的数据格式才能保证GWAS正常分析呢。今天主要给大家分...

  • 2020-02-17 GWAS进阶备选学习资料(GWAS tut

    GWAS进阶备选 0 原理 啊,全基因组关联分析(GWAS)的计算原理,了解一下? 1 分析流程 GWAS分析基本...

  • 生物信息分析常用文件格式和软件

    生物信息分析常用文件格式和软件 文件格式 数据格式 fastq fasta 注释 gtf gff bed bcf ...

  • GWAS分析-P值和beta值的爱恨相杀 (六)

    前面已经简单介绍过GWAS的概念,GWAS分析中所用到的文件以及分析流程,我们在GWAS分析结果文件中经常会看到b...

  • R可视化——曼哈顿图

        曼哈顿图(Manhattan plot)是一种GWAS分析中常用的展示基因组数据的散点图。今天,小编就带大...

  • 常用GWAS统计方法和模型简介

    本文是百迈客GWAS生物信息培训课程学习笔记第二篇,第一篇请参考GWAS基本分析内容 这里首先介绍了GWAS分析中...

  • 群体进化-GWAS分析

    群体进化-gwas分析 群体进化基础分析 PCA 分析原理PCA(Principal Component ...

  • GEMMA演示脚本

    1.计算亲缘关系矩阵 2.单性状LMM GWAS分析 3.多性状LMM GWAS分析 4.先填充缺失表型,再做LM...

  • GWAS分析

    Plink FaST-LMM TASSEL 有Windows版本 FaST-LMM-Select GAP...

  • GWAS分析

    首先准备输入文件(vcf文件和表型文件) 基因型推断 格式转换 会生成 tfam、tped、map文件根据tfam...

网友评论

    本文标题:GWAS分析-常用文件格式 (三)

    本文链接:https://www.haomeiwen.com/subject/xlyfjltx.html