美文网首页生信导读
RNA-Seq STAR 比对学习1

RNA-Seq STAR 比对学习1

作者: 7f0a92cda77c | 来源:发表于2021-05-12 16:58 被阅读0次
最近使用STAR比对出现了状况,软件版本和对应的Index不相容,报错信息如下
#EXITING because of FATAL ERROR: Genome version: 2.7.0d is INCOMPATIBLE with running STAR version: 2.7.9a
#SOLUTION: please re-generate genome from scratch with running version of STAR, or with version: 2.7.4a

原因是之前构建好的index是使用以前版本的STAR软件构建好的;现在因为重新安装了STAR软件,出现了Genome version和STAR version不兼容的问题

第一步-直接下载了STAR软件

由于conda 环境出现问题,所以就直接下载了STAR软件

#https://github.com/alexdobin/STAR 提供版本是2.7.9a
wget https://github.com/alexdobin/STAR/archive/2.7.9a.tar.gz
tar -xzf 2.7.9a.tar.gz
cd /public/vip/biosoft/STAR-2.7.9a/source
make STAR #全部大写,命令是大写的,对其进行编译

第二步-构建这个版本对应的Index

mkdir  mm10_2_7_9a
/public/vip/biosoft/STAR-2.7.9a/source/STAR --runMode genomeGenerate \
    --genomeDir /data/server/reference/index/star/mm10_2_7_9a \ #将准备构建好的index存放在哪个文件夹,对应第一行构建的那个文件夹的路径
    --genomeFastaFiles /data/server/reference/genome/mm10/mm10.fa \ #参考基因组
    --sjdbGTFfile /data/server/reference/gtf/gencode/gencode.vM27.annotation.gtf  \ 
    --sjdbOverhang 149 --runThreadN 4
#starting to sort Suffix Array. This may take a long time

构建耗时比较长

最后生成的文件是这个:
sudo chmod 0755 * 
#把权限给改了下,可以执行
ls -hlt
# total 26G
# -rwxr-xr-x 1 root root 318K 5月  13 03:23 Log.out
# -rwxr-xr-x 1 root root 1.5G 5月  13 03:23 SAindex
# -rwxr-xr-x 1 root root  22G 5月  13 03:23 SA
# -rwxr-xr-x 1 root root 2.7G 5月  13 03:21 Genome
# -rwxr-xr-x 1 root root  842 5月  13 03:21 genomeParameters.txt
# -rwxr-xr-x 1 root root 8.0M 5月  13 03:12 sjdbInfo.txt
# -rwxr-xr-x 1 root root 7.1M 5月  13 03:12 sjdbList.out.tab
# -rwxr-xr-x 1 root root  493 5月  13 02:10 chrLength.txt
# -rwxr-xr-x 1 root root 1.4K 5月  13 02:10 chrNameLength.txt
# -rwxr-xr-x 1 root root  912 5月  13 02:10 chrName.txt
# -rwxr-xr-x 1 root root  720 5月  13 02:10 chrStart.txt
# -rwxr-xr-x 1 root root 8.7M 5月  13 02:10 sjdbList.fromGTF.out.tab
# -rwxr-xr-x 1 root root  12M 5月  13 02:10 exonInfo.tab
# -rwxr-xr-x 1 root root 9.5M 5月  13 02:10 transcriptInfo.tab
# -rwxr-xr-x 1 root root 2.3M 5月  13 02:10 geneInfo.tab
# -rwxr-xr-x 1 root root  29M 5月  13 02:10 exonGeTrInfo.tab

第三步-建立STAR比对

3.1在比对之前先创建一个文本文件,存放测序的文件名前缀,保证它可以跟后续的文件联系上
ls /public/vip/project/clean/*val_1.fq.gz|cut -d "/" -f 6|cut -d "_" -f 1 
#1-PC-LCJ9004
#2-CP-LCJ9001
#4-CP-LCJ9003
#对应的是它相关的数据
#1-PC-LCJ9004_combined_R1_val_1.fq.gz
#2-CP-LCJ9001_combined_R1_val_1.fq.gz
#4-CP-LCJ9003_combined_R1_val_1.fq.gz
ls /public/vip/project/clean/*val_1.fq.gz|cut -d "/" -f 6|cut -d "_" -f 1 > list.txt
3.2做个测试,将要比对的文件进行循环输出,并检查是否正确
cat list.txt |while read id; do echo -n "/public/vip/project/clean/${id}_combined_R1_val_1.fq.gz /public/vip/project/clean/${id}_combined_R2_val_2.fq.gz "; done
3.3正确后,再进行下面的操作,将要执行的命令进行了循环输出到文件夹

要改的就只有比对的文件的差异,其它参数都一样,所以可以这样操作

cat list.txt |while read id;
do echo -n "/public/vip/biosoft/STAR-2.7.9a/source/STAR --runThreadN 5 "; echo -n "--genomeDir /data/server/reference/index/star/mm10_2_7_9a "; 
echo -n "--outSAMtype BAM SortedByCoordinate --outReadsUnmapped Fastx "; 
echo -n "--quantMode GeneCounts --readFilesCommand zcat --twopassMode Basic "; 
echo -n "--outFilterMismatchNmax 999 --outFilterMismatchNoverReadLmax 0.04 "; 
echo -n "--outFilterType BySJout --outFilterMultimapNmax 20 "; 
echo -n "--alignSJoverhangMin 8 --alignSJDBoverhangMin 1 "; 
echo -n "--chimSegmentMin 20 --chimJunctionOverhangMin 20 --chimOutJunctionFormat 1 "; 
echo -n "--alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 "; 
echo -n "--chimSegmentReadGapMax 0 --alignSJstitchMismatchNmax 0 -1 0 0 "; 
echo -n  "--readFilesIn /public/vip/project/clean/${id}_combined_R1_val_1.fq.gz /public/vip/project/clean/${id}_combined_R2_val_2.fq.gz --outFileNamePrefix ${id}"; done > star.sh

上述步骤均是参考了生信菜鸟团的帖子

less star.sh #循环生成的STAR比对命令
#/public/vip/biosoft/STAR-2.7.9a/source/STAR 
#--runThreadN 5 
#--genomeDir /data/server/reference/index/star/mm10_2_7_9a --outSAMtype BAM SortedByCoordinate 
#--outReadsUnmapped Fastx 
#--quantMode GeneCounts 
#--readFilesCommand zcat 
#--twopassMode Basic 
#--outFilterMismatchNmax 999 
#--outFilterMismatchNoverReadLmax 0.04 
#--outFilterType BySJout 
#--outFilterMultimapNmax 20 
#--alignSJoverhangMin 8 
#--alignSJDBoverhangMin 1 
#--chimSegmentMin 20 
#--chimJunctionOverhangMin 20 
#--chimOutJunctionFormat 1 
#--alignIntronMin 20 
#--alignIntronMax 1000000 
#--alignMatesGapMax 1000000 
#--chimSegmentReadGapMax 0 
#--alignSJstitchMismatchNmax 0 -1 0 0 
#--readFilesIn /public/vip/project/clean/1-PC-LCJ9004_combined_R1_val_1.fq.gz /public/vip/project/clean/1-PC-LCJ9004_combined_R2_val_2.fq.gz 
#--outFileNamePrefix 1-PC-LCJ9004
3.3正确后,再进行下面的操作
/public/vip/biosoft/STAR-2.7.9a/source/STAR --runThreadN 5 --genomeDir /data/server/reference/index/star/mm10_2_7_9a --outSAMtype BAM SortedByCoordinate --outReadsUnmapped Fastx --quantMode GeneCounts --readFilesCommand zcat --twopassMode Basic --outFilterMismatchNmax 999 --outFilterMismatchNoverReadLmax 0.04 --outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --chimSegmentMin 20 --chimJunctionOverhangMin 20 --chimOutJunctionFormat 1 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentReadGapMax 0 --alignSJstitchMismatchNmax 0 -1 0 0 --readFilesIn /public/vip/project/clean/1-PC-LCJ9004_combined_R1_val_1.fq.gz /public/vip/project/clean/1-PC-LCJ9004_combined_R2_val_2.fq.gz --outFileNamePrefix 1-PC-LCJ9004

如果这个运行成功,可以再批量后台运行这个

nohup bash star.sh &
top 
 #PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                           
#27025 vip       20   0 28.500g 0.025t   5556 R 493.7 40.9   5:15.71 STAR                                                                                              
#27033 vip       20   0    4920    852    788 S   7.6  0.0   0:06.46 gzip                                                                                              
#27029 vip       20   0    4920    884    820 S   7.0  0.0   0:06.27 gzip  

对于所选参数,再看下

https://github.com/alexdobin/STAR https://mp.weixin.qq.com/s/DK1QVFLB-AY4TzvB9ChqaA

相关文章

网友评论

    本文标题:RNA-Seq STAR 比对学习1

    本文链接:https://www.haomeiwen.com/subject/umxtjltx.html