导读

平时看文章，特别是组学文章，作者在文末都会提供其研究材料中高通量测序数据的下载链接，如果平时想练手的话，下载这些数据是最好不过了，下面我就总结下如何从GEO和SRA中下载作者提供的数据。

GEO或者SRA编号获取

1.以文章 “AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors为例

图一

其文末methods部分提供了GSE号：GSE81916，如下图

图二

2.根据提供的这个编号，首先打开GEO网页，链接：https://www.ncbi.nlm.nih.gov/geo/

图三

GEO包括三个层次：GSM（样本编号），GLP（检测平台），GSE（基因数据结果）

下载方法1：

直接通过GSE号进行检索，如上图，在搜索框中输入：GSE81916，得到如下图所示：

图四

GSE一般是测序后的原始数据，下载后解压即可。

tar GSE81916_RAW.tar #先用tar解压，得到以.gz结尾的文件
gunzip *gz ##再用gunzip解压所有文件

下载方法2：

(可以通过ByStudy和ByRun两种方式，不过好像ncbi的sra目录下现在只有ByRun这个文件夹了)jobs

如上图，检索后，出现了SRA数据库下载的链接，点击(ftp)进入以下界面

图五

共15个文件，即15个samples。此时即可对其进行下载我们发现其数据编号是有规律的，SRR紧接的四位数字是一样的，只有后三位等差数列，因此可以写个小程序来实现自动下载。

for ((i=948;i<=962;i++)) ; do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR3589$i/SRR3589$i.sra;done

备注：上面的方法不能用了，现在用下面这个心的下载方式

for ((i=948;i<=962;i++));do wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR358${i}/SRR358${i}.sra --no-check-certificate;done

下载之后，由于NCBI将数据压缩成特定的.sra格式，因此在后续的分析中我们要先将其转为fastq格式。这里用到的是sratool软件中的fastq-dump函数

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump –split-3 $id;done

接下来可以用fastqc看下数据质量，代码如下：

ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10

3.如果是文章中提供的是SRP编号，那么直接用ftp的网址：ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP根据编号找到文章中特定的SRP号码，一级级往下。

举个例子：如这篇文章《Gut Microbiome-Based Metagenomic Signature for Non-invasive Detection of Advanced Fibrosis in Human Nonalcoholic Fatty Liver Disease》

图六

打开后面提供的链接，如下图

图七

图八

图九

然后将获得的这个SRP100446编号去获得底部的SRR编号[https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/)该链接里一级级往下找对应的数字。找到后用上面提到的脚本下载，然后解压成fastq格式，即大功告成。