一.基因芯片基础知识
1.探针组
一张基因芯片包含上百万的探针(一般由25个碱基组成),它们被整齐的印刷在芯片上。一组探针或称探针组来自于一个基因,通常由20对或者11对探针组成,每一对探针都由匹配探针(PM)和错配探针(MM)组成,称为探针对。PM与MM序列只有正中央的那个碱基不同。而在一些高密度芯片中,可能没有MM探针。
探针序列的来源叫做参考序列,通常来源于公开的核酸数据库。对于不同的芯片类型,探针组在参考序列中分布不同。例如,3‘表达谱的探针组排布在参考序列3’末端附近的一至两个外显子上;外显子芯片中,每个长度大于25个碱基的外显子都有针对它的探针组;铺瓦芯片(Tilling array)中,探针组覆盖了几乎所有的外显子和内含子。

所以在基因芯片数据矩阵中,每一行代表的是一个探针组的表达量,而不是基因的表达量。在后面的差异表达分析中,找到的是显著性差异表达的探针组,然后通过ID映射到基因。
2.芯片数据格式
从芯片实验获取数据包括两个步骤:1.扫描设备对芯片进行扫描,得到荧光信号图像文件(DAT文件);2.由系统自带的图像处理软件经过网格定位,杂交点范围确定和背景噪音过滤等图像识别方法,从芯片图像中提取数据,得到CEL文件。
Affymetrix芯片原始数据最常用的是CEL格式,也是芯片数据处理的出发点。CEL文件只提供了每个探针的灰度信息,还需要基因芯片探针排布的信息,才能得到芯片上每个探针组对应的表达数据,这就需要CDF文件。另外一个重要文件是Probe文件,它提供了探针的序列信息。除了这些文件外,还有其他文件,对应关系如下:

二.芯片数据预处理
芯片数据预处理的目的是将探针水平的数据转换为基因表达数据。
1.数据下载
从NCBI将芯片数据下载下来,ftp://ftp.ncbi.nlm.nih.gov/geo/datasets/GDS5nnn/GDS5678/soft/GDS5678_full.soft.gz。解压文件,全是CEL格式文件。


该实验用抗血管生成剂bevacizumab(抗VEGF)和二苯并氮杂(抗Notch)处理的U87人异种移植肿瘤(在BALB/ cSCID小鼠宿主中)进行分析,得到的结果与来自GDS5672的结果进行比对。该套数据包含14张芯片;分为3种类型;来自GDS5672的包含5张芯片,bevacizumab处理的包含4张芯片,二苯并氮杂(抗Notch)处理的包含5张芯片。

2.数据读入
使用Affy包读取数据
source("http://Bioconductor.org/biocLite.R")
biocLite("affy") #导入affy包处理CEL数据
library(affy)
data_dir<-'/media/li/新加卷1/大三下/转录组学/作业/GSE39413_RAW'data_raw<-ReadAffy(celfile.path = data_dir)#读入数据
data.class(data_raw)#查看数据类型
发现数据是AffyBatch类型。该类可分为
头文件:主要用于描述实验样本,平台等信息,其中包括phenoData,featureData,protocolData,annotation等类可分别使用函数查看,例如,
phenoData(data_raw)

assayData:它的第一个元素是矩阵,用于保存基因表达矩阵。该矩阵的行对应不同的探针组,列对应不同的样品。后面差异表达分析时使用exprs提取的就是该矩阵的数据。
experimentData:MIAME类型数据,用于保存MIAME原则建议的注释信息。
3.质量控制
质量控制主要集中在CEL文件的处理,从简单的直接观察到平均值再到数据拟合方法。这三个层次的质量控制由image函数,simpleaffy包和affyPLM包实现。
image(data_raw[,1])
查看第一个芯片的灰度图像。Affymetrix芯片在印刷时会在四个角印制特殊的花纹,并在左上角印制芯片的名称。如果无法分辨四角花纹或芯片名称,很可能数据有问题。如果图像特别黑,说明信号强度低;如果图像特别亮,说明信号强度可能过饱和。

比直观评价方法更好的是基于各种平均值的方法,这类方法的共同的是假设一组实验中的每个芯片数据对于某个平均值指标相差不大。Affymetrix公司在指导手册中描述道:
尺度因子:每一块芯片上所有探针的平均值被用于决定尺度因子。假设每个芯片上所有基因定量后线性坐标表达值介于0到200,平均值为100,假设第一块芯片平均值为50,第二块200,。则尺度因子分别是2 (50/200)和0.5 (200/100)。依照Affymetrix公司的标准,尺度因子比必须小于3,在这个假设中,2/0.5=4,因此这两块芯片不能比较,其中由一块有问题。
检测值和检出率:一组探针能否被检测到,用检测值有(P),无(A)不确定(M)表示。使用公式R=求得每个探针的区分度,然后减去用户预定义的Tau值后做Wilcoxon秩和检验,在求的p值,根据P值落入的值域,确定检测值。检出率,是用所有检测值为P的探针组数量除以所有探针组数量得到的百分比。
标准内参:mRNA是从5‘到3’降解的,探针组也是按照这个顺序设计的。因为大部分细胞有-action和GAPDH基因,所以Affymetrix在大部分芯片里都将它们设置为观察RNA降解程度的内参基因。通过比较它们3‘端相对于中间获知5’端的信号强度,可以很好的指示出实验质量。这个比值对于
-action不大于3,对于GAPDH不大于1.25,即可说明这个芯片质量可接受。另外Affymetrix公司还加入了两类嵌入探针组:一类是pooly-A内参,包括lys,phe,thr和dap,从实验开始加入,它们的稀释比不同,期望检测到的信号强度为lys<phe<thr<dap。另一类是杂交内参,包括biob,bioc,biod和crex,它们从样品与芯片混合前最后一步加入,期望检测到的信号强度为biob<bioc<biod<crex,如果biob不能被检测为P,说明该信号杂交没有达标。
biocLite("simpleaffy")
library(simpleaffy)
data_qc<-qc(data_raw)#获得质量分析报告
plot(data_qc)

图中第一列是所有样品名称,第二列是以百分比形式出现的检出率,下面蓝色的数字代表平均背景噪声,第三列最下面的轴是尺度因子等指标对应的坐标。第三列分别用实心圆,空心圆,和三角表示尺度因子,graph3/graph5,action3'/5'.如果第三列出现bioB,表明该样品未能检测到bioB。
基于平均值的假设都是假设对于每一块芯片质量是均匀的,但事实并非如此。这就需要更多的设计才能得出结论,这些可以通过affyPLM包实现。
biocLite("affyPLM")
library(affyPLM)
plm<-fitPLM(data_raw)#对数据集做回归计算
par(mfrow=c(2,2))image(data_raw[,1])image(plm,type="weight",which=1,main="weight")image(plm,type="resids",which=1,main="residuals")image(plm,type="sign.resids",which=1,main="residuals.sign")

在权重图中,绿色代表较低权重(接近0),白色,灰色代表较高权重(接近1);在残差图中,红色代表正的高参差,白色代表低残差,蓝色代表负残差;在残差符号图中,红色代表正的残差,蓝色代表父的残差。如果权重和残差都是随机分布的,应该看到绿色均匀分布的权重图和红蓝均匀分布的残差图。另外,在图中出现了一些白色的条块,这是正常现象。因为有时候,探针会按照GC比率排布导致白斑出现。
4.背景矫正,标准化和汇总
芯片数据通过质量控制,剔除不合格的样品,留下的样品数据通常要经过三步处理才能得到下一步分析所需要的矩阵。
背景矫正:芯片中MM探针作用是检测非特异性杂交信号。理论上,MM只有非特异性杂交,MM信号值永远小于其对应的PM信号值,那么做PM-MM即可除去背景噪声的影响。但实际上,经常发现MM值比PM值还要高。因此,需要做更复杂的统计模型来去除噪声。
标准化:目的是使各次/组测量或各种实验下的测量可以相互比较,消除测量间的非实验差异。
汇总:使用一定的统计方法将前面的到的荧光强度值从探针水平汇总到探针组水平。
上述三步可以通过affy包中的expresso函数一步实现。
library(affy)
eset.mas<-expresso(data_raw,bgcorrect.method="mas",normalize.method="constant",pmcorrect.method="mas",summary.method="mas")
expresso函数可以自动实现整个预处理的过程,除了expresso外,affyPLM包提供的threestep函数也可以实现。然而三步处理中每一步都要用户指定参数的话,会有很多不同的组合,但实际上有些组合并不能用。在实际中,应用较多的是预设参数的一体化算法。常见的有affy的MAS5和RMA,以及gcrma包提供的gcRMA等。
网友评论