二代测序数据过滤
1.基因测序技术
一代测序 sanger测序
二代测序 Roche/454 Illumina ABI/Solid
三代测序 PacBio/SMRT
其他测序 Ion Torrent
2.二代测序比较

3.测序通用流程
1.制备文库
2.PCR扩增
3.测序及荧光信号判定
4.测序数据错误(针对每项过滤)
1.低质量的序列(low quality reads)
2.重复序列(duplicate reads)
3.核苷酸的插入、删除及替换(insertion、deletion、mismatch)的序列
4.带有人工污染物(如adapter等)的序列
5.其他(交叉互换等)
5.测序数据格式



6.测序数据质量转换

7.低质量的序列(low quality reads)
A:每个碱基位点质量分布,B:序列平均质量密度分布

A:正链每个碱基位点质量分布,B:正链序列平均质量密度分布
C:反链每个碱基位点质量分布,D:反链序列平均质量密度分布


每个碱基位点质量分布

过滤方法
(1)平均质量和低质量碱基数

低质量碱基数百分百(阈值k):P= N(Q<k)/N总 (N为碱基数)
补充:
(1)Q = -10lg(e) e为预计碱基检出不正确的概率
(2)去除未识别的非ATCG的碱基N,(P=numN/num)>阈值
(2)滑动窗口算法

8.重复序列(duplicate reads)
(1)重复序列聚类算法

(2)比对后去重复
测序原始数据与参考基因组比对,对生成的**.sam文件做处理,该文件保留了匹配每个位点的相关信息,寻找重复序列并去除就比较容易。下面为picard去重复代码
java –Xmx4g -jar picard-tools-1.70/MarkDuplicates.jar \
MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000 \
INPUT= sample01.sort.bam \
OUTPUT= sample01.dedup.bam \
METRICS_FILE= sample01.dedup.metrics
realigned.bam <- realign(dedup.bam) [with known sites included if available]
9.核苷酸的插入、删除及替换(insertion、deletion、mismatch)的序列
略
10.带有人工污染物(如adapter等)的序列

11.其他(交叉互换等)
略
12.数据过滤评估
1.过滤后的数据与参考基因组比对,比较比对率的高低
2.被过滤的测序数据所含匹配碱基的数目高低
3.程序运行时间及复杂程度
4.过滤过程及过滤后都可做一些质控分析,用质控数据直观显示过滤状况
质量分析软件-FastQC:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
芯片数据过滤
1.芯片简介
1.涉及生命科学、物理科学、计算机科学、微电子技术、光电技术、材料科学等。
2.现状:21世纪初发展,受二代测序冲击,低迷一段时间,现有回升趋势。
3.原理:杂交测序法。变性DNA,加入探针杂交,退火。
2.芯片分析流程

3.芯片制备过程
1.芯片设计:
(1)探针的设计
(2)探针在芯片上的布局
2.注意事项:
(1)互补性
(2)敏感性和特异性
(3)容错性
(4)可靠性
(5)可控性
(6)可读性
4.杂交信号检测
1.现有的杂交信号检查一般都有相应的仪器,做一些图像的识别、处理及分析,提取数字信号得到原始数据。
2.杂交信号探测系统:
(1)杂交信号产生
(2)信号收集及传输
(3)信号处理及成像
3.质控过滤:
(1)软件、硬件、检测扫描系统
(2)信号强度
(3)背景噪声
5.芯片误差分析
1.生物学差异
(1)遗传
(2)环境因素
2.实验系统误差
(1)样本
(2)芯片
(3)杂交过程
(4)检测系统
3.减少误差
(1)生物学重复
(2)实验流程质控
(3)数据处理和矫正
6.数据处理和矫正
1.最简单的方法就是计算整个芯片的信噪比。
2.图形辅助验证:散点图、箱式图、分布密度图等。
3.其他质控条件:相关系数、变异系数、弱信号处理等。
4.数据归一化:
(1)全局归一化法
(2)局部加权归一化法
(3)分位数归一化法
补充



网友评论