参考::华文慕课:生物信息学(高歌)
第二章 序列比对
第一课:
课程宗旨:
- biology 为什么需要这方法
给定两个序列,比对差异,
例子中:标记行(比对串),相互独立无上下文关系,gap_open gap_extending - data 方法需要什么样的输入数据,哪些参数
- model 生物学问题如何被建模成为一个被计算机解决的计算问题
4.aigorithm 实现模型所需要的算法,性能及约束和限制
第二课(全局比对):
如何使用算法进行双序列比对构建:
input data:序列1 序列2
parameters (参数):对给定的比对结果进行量化的打分函数 f
output : 可使分数得到最大化的比对结果(最优比对结果)
方法1:枚举(比对数目有限),数量级较大
方法2:动态规划,局部最优解的组合为全部最优解
第三课(局部比对):
限制最低罚分为0,所有回溯均为局部
第三课 (空位罚分补充)
gap_open gap_extending
比对状态,将gap_open 与gap_extending 表示为不同状态下的转移,之后在写动态规划迭代公式
第四课:
直系同源:针对不同物种
旁系同源:针对相同物种
dot matrix 与动态规划回溯图区别:
动态规划表 前面已经考察的子序列的最优匹配方式及得分
dot matrix 关系local 的几位碱基构成的word是否完全匹配
重点总结:
动态规划算法原理
局部比对与全局比对使用的方法的差异
现今序列比对局限性:相互独立,与上下文无关
第三章:序列数据库搜索
第一课:序列数据库
- 目的:序列与数据库比对使用动态规划算法,所用时间较长,需要找到更快速的方法
- 前提:
全局比对中:两条近似相等的序列间最优比对所对应的路径会在主对角线两侧有限的小区域内
局部比对中:最优比对平行与主对角线 - 更快速的算法(eg:blast):利用最优比对对角线的特性,降低计算量
- 数据库简介:
- nr:所有已知蛋白的去冗余集合,一般用来确定此查询序列是否被别人研究过,其中内容丰富,但并非每条记录有详尽、准确的注释
- swiss-prot:
内容:是uniprot数据库的一部分,swiss-prot中的每一条记录,都经过了专家团队的手工注释,包含了从功能、修饰、结构等方面的全面信息,及到其他相关数据库的全面链接:
作用:需要尽可能准确、详尽地注释新序列时,使用此数据库
问题:hits 什么意思
第二课 blast算法初探
-
原理简介
找到两条序列之间高度相似的小片段,即所谓种子seeds() ==> 依次为基础,向两端延伸并构建比对 ==> 为避免可能假阳性,计算其统计显著性 即 seeding -and - extending 只在有限区域应用动态规划算法,降低计算量- 不确保能找到最优解,但尽力在更短时间内得到足够好的解
-
第一步 将输入序列切分为若干小段(seed word :种子单字) ,filter会去掉一些序列
-
第二步 通过事先建立好的索引表,来对数据库汇总快速定位相关候选序列及在候选序列中具体位置
-
第三步,对所有seed均重复第二步操作,得到查询序列与候选数据库序列之间的hit map,之后仅仅保留沿对角线方向有两个及两个以上连续hit cluster ,从而缩小搜索空间
-
第四步:以hit cluster 为基础,向左右两个方向延伸以拓展
,直至总分数的下降超过给定的之后,停止。其中,在拓展后的区域利用动态规划算法,确定最优比对,
第五步:比对统计显著性,确保此次比对不是随机因素引起,blast中用e_value(在随机情况下,获得比当前比对分数相等或者更高分数的可能比对条数),e_value值与序列长度,数据库大小,分数,打分矩阵 -
为提高速度及灵敏度使用的其他技巧:
- 屏蔽重复性低复杂度(根据序列的信息量)区域(eg 微卫星序列),避免产生太多假阳性hit
- 考虑与seed word 相似的邻居单字,对所有seed word的所有可能的变形根据代替矩阵来计算分数
第四章 马尔可夫模型(markov model):听不懂。决定先跳过
第一课:重状态到马尔可夫链
马尔可夫链:用来刻画一组之间存在关联的随机事件,用来描述一组离散状态之间在不同时刻的转移关系
第五章:新一代测序NGS:重测序的回帖和
首先介绍对基因组重测序产生的DNA数据分析方法,首先介绍相关深度测序的分析方法,之后如何利用这种分析方法所得到的的结果进一步探索生物学问题
第一课:新一代测序
fastq格式,碱基质量,
使用方向及作用:DNA,RNA—seq CHIP—seq:转录因子结合位点,检测特定染色质修饰区域
第二课:序列回帖和变异鉴定
- reads-mapping与之前的双序列比对差异:
- 序列的长度:两条序列相差很大,reads <100bp
- 数据质量:reads 质量参差不齐,
- 需要混合了全局比对和局部比对的混合型的alignment(reads 为全局比对,基因组:全局比对)
- 比对(参考blast):
- 参考基因组建立索引,将reads快速定位==> 通过标准的动态规划算法,构建最终的alignment
索引
解释:对数据进行分组,方法:哈希
eg:将参考基因组切分为若干seed 片段,==> 针对每个seed片段计算其哈希值作为其索引表中的地址,并在地址表中保存此段序列及其在基因组中的坐标
- 回帖参考基因组 与blast 不同:
新一代测序错误率较高,比对有可能会因为测序错误引起的假象,引用SQ值(假定所有看到的错配均由测序错误引起,计算错配率并取log值),之后计算错误mapping的概率E值(此E值同时考虑了序列相似程序和测序质量),在数据分析中,更多使用mapping quality非序列比对分数来筛选真正的reads mapping的数目 - 遗传变异相关概念:
SNV:单个核苷酸水平,继续划分为SNP(碱基替换)及indel
SV:多个碱基的结构变异,继续划分为大尺度的插入和删除,倒转、易位及拷贝数变异等多种类型
SNP calling:确定哪个基因组位点存在变异,并不涉及对应位点的基因型,genotyping 则是在SNP calling的基础上进一步确定变异位点的基因型 - SNP calling genotyping 方法(但如果质量较低,不太可信):
校正碱基质量,突变位点的频率小于20%或大于80%作为纯合变异位点,频率在20%-80%之间为杂合变异位点
网友评论