汽车车载音乐大全 无损音乐免费下载 2022车载音乐打包下载
需要的文件
参考基因组:reference.fasta
测序文件:bam 格式比对结果文件
所需软件: samtools 、gatk 、 Picard
GATK需要reference序列是经过index的,而且需要两个index文件,一个是后缀名为.fai的,另外一个是后缀名称为.dict的,缺少这些文件,或者两个文件中的内容不一致都可能导致程序报错。
samtools faidx reference.fasta #生成后缀名为.fai
gatk CreateSequenceDictionary-R reference.fasta -O reference.dict #生成后缀名为.dict
好听的歌曲下载
获取路径 ttyinyue.top (复制直接获取歌曲)
GATK要求输入的bam文件包含Read groups,如果没有就会报错。
Read group是@RG开始,包括以下几个部分:
ID= Read group identifier
每一个Read group独有的ID;
PU= Platform Unit
PL= Platform/technology used to produce the read
测序使用的平台: ILLUMINA, SOLID, LS454, HELICOS and PACBIO。
LB= DNA preparation library identifier
对一个read group的reads进行重复序列标记时,需要使用LB来区分reads来自那条lane;有时候,同一个库可能在不同的lane上完成测序;为了加以区分,同一个或不同库只要是在不同的lane产生的reads都要单独给一个ID。
SM= Sample
reads属于的样品名,自由设定
bwa mem -R '@RG ID:group LB:library PL:illumina PU:unit1 SM:676R' ~/ref/reference.fasta read1.fq read2.fq > bulk.sam
Picard: 它是目前最著名的组学研究中心-Broad研究所开发的一款强大的NGS数据处理工具,功能方面和Samtools有些重叠,但更多的是互补,它是由java编写的,我们直接下载最新的.jar包就行了。
举报/反馈