美文网首页
生信解读:CCR 10+|自测数据+公共数据联合分析

生信解读:CCR 10+|自测数据+公共数据联合分析

作者: 概普生信 | 来源:发表于2020-12-04 09:18 被阅读0次
头颈部鳞状细胞癌microRNAs分型:上皮型和基质型

文章由田纳西大学健康科学中心,北卡罗来纳大学联合韩国天主教大学于今年11月刚刚发表,利用无监督模型对于头颈部鳞状细胞癌(head and neck squamous cell carcinoma,HNSCC)基于miRNA分为“上皮型”“基质”两种临床亚型。对于希望做癌症分型的研究人员,很有借鉴价值。

研究概述|确定是否可以根据miRNA进行HNSCC分类

数据概览|2个独立队列数据,分别使用miRNA微阵列和miRNA测序,另外借助TCGA和PaVE数据库做meta分析和下游分析

分析亮点| MicroRNA结合mRNA分析及癌症临床亚型分型

MicroRNAs是一种小且高度保守的非编码RNA分子,通过与靶mRNA结合并抑制其转录,进而调节基因表达,从而影响干细胞特性、分化和肿瘤发生。但是在科研方面,很大程度受到组织鲜活度,从而影响其降解,很难从FFPE组织中获得。但是HNSCC鲜活组织中检测到的miRNA被很多研究报道,但是个体肿瘤差异研究依然很少。

队列数据获取

测试队列 --文章作者使用成人口腔、口咽、下咽和喉部手术切除组织,10个正常对照,包括5个肿瘤邻近的正常样本和5个正常扁桃体组织样本。经过实验提取并剔除低质量样本,最终保留88个肿瘤和10个正常样本队列。并且GEO中可以获得(GSE144711),该队列将作为测试队列。

验证队列 --另外TCGA中获取HNSCC相关的528个肿瘤数据,有474同时含有mRNA和miRNA数据,正常样本为44个。所有miRNA-seq数据均为归一化和log2-transform表达,单位为每百万读数,而mRNA-seq数据包括归一化和log2-transform的RSEM表达。

患者临床数据从PaVE数据库(https://pave.niaid.nih.gov/)获取患者HPV状态,经HPV mRNA mapping 后,如果超过1000read,则认为患者为HPV肿瘤,病毒序列基因主要是E6和E7。

miRNA过滤、分类和验证

大部分miRNA在细胞中表达较低甚至不具有生物活性,因此,文章只考虑了聚类后平均绝对偏差(MAD) > 75%的可变miRNAs。这里利用integrative correlation coefficients (ICC)10%的50个miRNA作为考量并用于后续的分析。

ConsensusClusterPlus R包(RRID:SCR_016954)通过平均连锁层次聚类,确定每个队列可能分配的miRNAcluster范围。使用SigClust R软件包评估聚类的统计学意义。应用质心预测,对单个样本分类,确定测试队列和验证队列中的每个cluster的质心。通过计算到每个质心的相关距离(1 - Pearson相关系数),确定每个类的标签。并根据miRNA这个分类方法,应用到TCGA的膀胱、宫颈和肺鳞状癌的验证数据中。

差异表达基因和microRNAs

采用似然比检验方法,识别TCGA组群cluster间差异表达的miRNA (DEmiRs)。FDR阈值为0.05使用DEGseq的R包实现。在HPV(+)和HPV(-) TCGA样本之间,以及在TCGA样本中的每个miRNAcluster和正常对照样本之间,也同样测定了DEmiRS。在筛选低表达变异基因(MAD < 75%)后,同样在TCGA队列中miRNA为基础的cluster之间进行差异基因表达分析。

MicroRNA-mRNA综合分析

这里使用来自TCGA队列的基因表达数据,计算了所有可能的miRNAs和mRNA组合的Pearson相关系数Benjamini and Hochberg校正(q值)来控制多重检验。确定cutoff值为0.01的q值表示miRNA和基因之间负相关。接着使用seed mRNA来注释miRNA-gene对应关系,并进行了target gene预测。基因靶标预测方法包括:targetScan v7.2、miRwalk v3、miRTarBase v7.0和miRDB v6.0。为了对TCGA膀胱、肺和宫颈数据集进行整合分析,仅使用负相关并且TCGA HNSCC数据集中预测基因ICC值位于前75%的数据。

功能基因网络分析

这里使用监督和非监督的方法识别基因集并利用GO进行基因集富集分析(PAGE)。FDR<0.01认为具有统计学显著性。之后进行层次聚类,“cutree”进行GO功能项的聚类注释。

突变和拷贝数考量

从公共数据库获取肿瘤细胞的包括突变注释格式文件和由GISTIC方法确定的3级分段基因组区域所描述的拷贝数改变。找到与癌症最相关的前50的基因,并使用GISTIC模块v2.0.23分析了这两种亚型之间的拷贝数谱。

根据上述方法,首先获得了两个队列的人口统计学数据和miRNA分类情况,发现两个队列总体分期,HPV状态和性别分布相似。并且在UNC队列建立的分类器可以应用到TCGA的队列中,如图1A所示,8个miRNA在UNC队列I中下调,在TCGA队列II中下调,剩余的42个在UNC队列II中下调,在TCGA队列I中下调。那其他癌症呢?接着在TCGA其他癌症类型中,发现高度一致(图1B)的基于miRNA的表达模式。这个label表明,生物学过程很可能收到一组强大miRNA调节的影响。总的来说,基质亚型中miRNA的下调与mRNA的上调有关,这些mRNA参与了间充质细胞(包括肌肉、循环、骨骼和神经系统发育)衍生的基质发生过程(图1 c)。

图1,MicroRNAs鉴定两种与上皮分化阶段相关的HNSCC亚型

接下来图2显示,与正常样本相比,许多代表上皮亚型的miRNA(包括miRNA -195、-127和-125b)在两种肿瘤亚型中均下调,这表明它们可能在HNSCC中发挥整体抑瘤作用。此外,虽然基质亚型的许多miRNAs代表在正常组织中也下调,但与正常组织相比,基质亚型中先前鉴定的致癌miRNAs (miR-17/92a簇,miR-183-5p, miR-106b/25簇)明显上调。

图2,HNSCC和正常样本的差异表达miRNA

miRNA靶向与基因表达的调控要比在核酸水平上简单识别seed-seq复杂得多。如图3A观察到的肿瘤亚型的miRNA和cluster更为丰富。DAVID分析验证了miRNAs区分类别属于不同GO或功能的假设,根据上述队列中miRNA分类得到的上皮和基质亚型,研究致癌通路的激活途径差异,图3B所示,各miRNA靶基因的表达被聚合并与miRNA的表达相关联。在HNSCC中,证明了上皮亚型与RAS、PI3K和TNNB1等已知与上皮肿瘤相关的致癌通路的激活相关。而图3C所示,TCGA队列同样支持数据可以区分基质和上皮亚型

图3,两个miRNA簇显示上皮亚型的不同表型

定义了HNSCC可重复的miRNA亚型后,探讨了它们与各种先前描述的分子标记和临床表型的关系,如图4所示。miRNA亚型存在统计学差异,口腔癌在基质亚型中发现的比例更高,而在上皮亚型中发现的口咽部、下咽和喉部肿瘤更多(p< 0.001)。另外在组织学级别上的显著差异表现在,上皮亚型中分化较好的肿瘤,基质亚型中分化较差 (p = 0.003);然而,两亚型之间的t分期晚期差异是临界不显著的(p = 0.10)。淋巴结状态在各亚型之间无显著差异(p=0.20),但在TP53突变的肿瘤中,基质亚型中淋巴结转移的比例高于上皮亚型(58.2% vs . 0.20)48.9%;p = 0.033)。考虑到肿瘤亚型对于临床影响,并观察到在单变量分析中,基质亚型的总体患者的统计结果更差(图4B所示)。在一个子集分析中考虑了miRNA亚型对HPV(+)患者的影响,并证明了这一点HPV(+)间质患者的预后远不如HPV(+)间质患者,生存期中位数仅为3年左右,与此同时,上皮性HPV(+)患者的生存期中位数接近90%相比,尽管由于随访充分且人数少,差异并不显著。

图4,TCGA队列的不同的遗传改变和HNSCC亚型临床特征

最后看一下HNSCC的基因组改变情况,上面已经发现miRNA亚型中的表达模式与正常对照不同,突变评估主要对肿瘤纯度和病理生理学的评估具有指导意义。首先,值得注意的是,在基质肿瘤中发现的典型TP53突变比上皮肿瘤多,分别为77.8%和68.5% (p = 0.04),这与口腔肿瘤更多地被非恶性细胞浸润的事实不一致。进一步考虑除了TP53的频率,是否在不同亚型之间存在其他突变差异,观察到miRNA为基础HNSCC亚型表现出明显的体细胞突变模式如图5所示。除TP53 (p = 0.041)外,NSD1 (p < 0.001)、HRAS (p = 0.018)和ZNF521 (p = 0.003)在各亚型之间也有显著差异突变。上皮亚型包含大部分NSD1突变(占57个突变总数的82.5%),与基质亚型相比,它含有NSD1突变的肿瘤比例更高(16.4% vs 5.8%)。相反,基质亚型表现出较低的两种HRAS率(2.9% vs 8.5%)和ZNF521 (0.5% vs 6.3%)突变。接着对纯度进行定量评估,即评估基因组中的拷贝数变化(图5B)。间质肿瘤和上皮肿瘤在染色体增益(3q, 5p, 8q)和损失(3p和8p)上表现出相似的强度和分布。得到的结论倾向于,miRNA亚型不太可能主要由正常的基质污染或炎症浸润来定义,而更可能是由肿瘤内在因素(如突变、分化阶段和其他引导基因和miRNA表达异质性状态的特征)所决定的。

图5,在TCGA队列中,HNSCC亚型具有明显的遗传改变特征

这个研究表明基于miRNA的特征可以区分肿瘤中的上皮和间质亚型,这表明癌症的分类可能反映了与正常生理相关的过程。可以结合自有样本的测序数据和数据库数据,进行无监督样本分类,讨论肿瘤分型的情况和聚类后cluster的特征代表性是否具有普遍意义。

相关文章

网友评论

      本文标题:生信解读:CCR 10+|自测数据+公共数据联合分析

      本文链接:https://www.haomeiwen.com/subject/mdebwktx.html