TCGA视频课程笔记(上)

作者: 小梦游仙境 | 来源:发表于2019-04-30 03:00 被阅读171次

TCGA-101-课程介绍-需要哪些背景知识

基于TCGA28篇教程

掌握以下基础知识:

概念、研究范围、数据来源、数据存储、数据格式、癌症相关背景知识

数据挖掘前提:R语言编程基础

TCGA-102-课程导读-如何使用我的github代码

jmzeng1314/tcga_example

以KIRC的miRNA实战举例:也可应用在其他测序方式的数据

1.下载github代码到自己电脑

2.通过“KIRC.Rproj”定位到当前的工作环境

3.setwd("scrips/")(代码都位于'scrips')

4.安装包,再library('')载入,失败时重新安装即可。

5.另外数据库(GDC、RTCGA、Xena)也可拿到表达矩阵,推荐Xena

6.差异分析的中间结果都存储在Rdata这个文件夹里,load可看到

7.有三种R包得到的结果(DESeq_DEG、edgeR_DEG、DEG_limma_voom)

8.miRNA不认识的基因名可去找miRNA命名方式

9.step02:三种R包的比较结果

10.step03-bath-logRank:表达矩阵只要tumor,临床信息去掉NA,名称简化,age分成了group

11.step04-batch-coxp:校正gender、age、stage后,group是否依然有差异性。此包可画森林图:每个基因的风险因子及p-value。

TCGA-103-数据库大有作用-不仅仅是灌水

生物信息学文献阅读笔记

现有文章和公共数据库做比较,自己感兴趣的基因在什么通路有作用,在公共数据库做验证,避免做更多实验。

TCGA大作用:癌症肿瘤相关数据,致力于解决人类癌症的基础问题,理解多组学数据如何和自己的数据做比较。

第08周-头颈癌:通过表达谱分类:非负矩阵分解

第15周-单细胞转录组

第25周-2433乳腺癌

第01周-探究为何一个TNBC对gefitinib:kmplot数据库

第09周-细胞因子相关基因和细胞周期相关基因是有关系的,下载TCGA的数据,自己数据中相关的数据在TCGA是否有相关性

第12周-TCGA表达量看共表达情况、TCGA查询两个基因相关性;KRAS基因突变;需要了解somatic mutation和germline mutation相关概念;找到哪些基因在哪些样本中突变,接下来可以把这些样本过滤出来。

第13周-台湾OSCC

第14周-结合TCGA数据画主成分分析

第18周-

第21周-GSVA、METABRIC做生存分析。高表达基因的病人死的比较快-就有意义

第25周-有表达量就可以分型、通路

第26周-韩国人乳腺癌数据自己170个病人

第29周-FGFR3-TACC3基因融合,目前没有数据能下载到融合信息,但有一个融合基因数据库

TCGA-201-背景介绍基网页工具大全

TCGA官网-publication列表

最重要有6家单位

tCGA Platform Code:HG-U133_plus_2

最重要了解多组学数据是什么形式:可变剪切

并不是所有数据都能下载,原始数据不能下载,须申请根据自己的癌症背景,我们能拿到3、4 级结果拷贝数结果、sometic mutation等

1.测序数据>比对BWA>去PCR重复>质量控制校正:得到bam文件

2.放在IGV

3.QC包括

  • somatic/germinal mutation

  • Indels

  • Purity/ploidy 算法来测purity :做数据挖掘可把purity下载来做数据矫正,提高逼格

  • 拷贝数变异

从TCGA我们可以得到哪些数据?

  • 外显子数据

  • 表达数据

  • 甲基化芯片数据

  • 蛋白质组学数据

  • 小rna测序数据

  • 拷贝数芯片

  • 临床信息

一些统计原理和软件用法可教

癌症背景知识重要,癌症具有异质性

TCGA关于乳腺癌所发的重要文章如下

image

TCGA可以拿到哪些数据如下

image

网页工具大全

image
  • GDC:TCGA数据改版后放在这里了,其中Exploration和Legacy Archive这两个链接可着重留意

  • Exploration:通过根据各种癌症挑选样本,再挑选6中数据,再挑选自己需要的

  • cbioportal:不是根据癌症种类分类,而是根据paper 来分类

    800多个样本和1000个样本是不会差别太大的,TCGA2006年开始,但是样本是2012年才引入的

  • 数据库接口?

  • BROAD:根据癌症分类

  • oncllnc:以上数据库是储存数据,此数据库主要看某个基因在某个癌症中是否有相关性,可看到某个基因在各个癌症中的表达量

  • tanric:lncRNA,目前可通过tCGA提取数据,已不需要改网址

  • TCIA:TCGA纳入的病理学和影像学资料\免疫

  • ICGC:比TCGA更大

TCGA-202-其它数据库介绍

TCGA重点是癌症背景知识:各个癌症发的各个文章的介绍

有参组学的NGS数据分析的异同点分析腾讯视频

其他相关数据库:GTEx和CCLE

  • GTEx:死人(车祸等)700多个人,每人20个组织。有了基因型再加表达数据就可以做eQTL的分析>做TCGA通常会拿eQTL做正常人的对照

    image
image image

注意tpm\reads值,值得探索

image image

CCLE:告诉你每种CCLE对应哪种细胞系?

有些文章会把TCGA、GTEx、CCLE合并在一起分析。

TCGA-203-使用Xena网页工具

UCSC Xena> 在线工具,可探索TCGA纳入的30多种癌症的所有病人的所有类型的数据,并不需要编程

1.TCGA Breast Cancer (1247samples)1000个病人,测了多种组学数据>

![] image

每个基因的所有数据在这里都有

![] image image image image image image

搜索到一篇文章,以CRC(colon and rectal cancer)生存分析要加sample type的筛选标准

image image image image

看methylation和表达量的相关性

image image image

教程地址

以上为表达量数据,可以有很多组合,比如突变

PANCAN:所有癌症在一起,多一个属性叫癌症属性。癌症种类合在一起。

再举个🌰

image image image

在R里画

rm(list=ls())
options(stringsAsFactors=F)
a=read.table('denseDataOnlyDownload -1.tsv',fill = T)
a=na.omit(a)#去掉na值
head(a)
cor(a[,5:37])#head(a)后看到甲基化和探针为第5列到最后一列-37,cor甲基化相关性值

再回到网页工具,选择array中基因芯片表达量

image image

相关文章

  • TCGA视频课程笔记(上)

    TCGA-101-课程介绍-需要哪些背景知识 基于TCGA28篇教程 掌握以下基础知识: 概念、研究范围、数据来源...

  • TCGA系列视频课程介绍

    TCGA系列视频课程介绍 马克思哲学中,工具的使用是人类区分和动物区别的关键。沿着这个思路发展,现代社会的我们反而...

  • StatQuest机器学习

    视频B站视频笔记:公众号:生信小知识+生信菜鸟团学习思路:机器学习——小洁简书TCGA笔记——生信技能树线上视频 ...

  • TCGA数据挖掘笔记1

    生信技能树2021数据挖掘线上课笔记,需要结合课程讲解服用 TCGA下载数据的方法-gdc-client(软件名)...

  • B站TCGA视频学习笔记

    B 站视频链接:https://www.bilibili.com/video/av49363776 1. 概述 和...

  • TCGA数据下载(2):Downloading Dataset

    前言 上一章TCGA下载:Downloading Dataset from TCGA via TCGAbiolin...

  • Oracle笔记

    Oracle 视频里的三天课程简单笔记

  • 视频课程学习笔记

    视频课程学习内容 1.常见错误 错误:关键词价格调整总是出错关键词投入产出比新的公式: 投产平衡点 = 1/利润率...

  • TCGA数据分析系列(一)

    公众号“生信小课堂” TCGA数据分析课程:生物信息学教学 肿瘤基因组图谱(TCGA)计划是由美国National...

  • TCGA知识图谱视频学习笔记1

    视频链接:http://jm.grazy.cn/?tdsourcetag=s_pctim_aiomsg 参考笔记:...

网友评论

    本文标题:TCGA视频课程笔记(上)

    本文链接:https://www.haomeiwen.com/subject/foipnqtx.html