データの準備
解析対象とするfastqファイルをダウンロードしていきます。
SRA Toolkitをインストールしていない場合には、以下のコマンドでインストールできます。
$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz $ tar zxvf sratoolkit.current-ubuntu64.tar.gz
binフォルダにパスを通しておいてください。
以下のコマンドでSRR3485766のfastqファイルをダウンロードできます。
$ fastq-dump -A SRR3485766 --split-files
これで、カレントディレクトリに SRR3485766_1.fastqとSRR3485766_2.fastqが作成されました。
マッピングの準備
参照配列をダウンロードします。
$ wget ftp://ftp.ensembl.org/pub/release-94/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz $ gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz $ wget ftp://ftp.ensembl.org/pub/release-94/gtf/homo_sapiens/Homo_sapiens.GRCh38.94.gtf.gz $ gunzip Homo_sapiens.GRCh38.94.gtf.gz
次に、STARのインデックスを作成していきます。
STARをインストールしていない場合には、以下のコマンドでインストールできます。
$ wget https://github.com/alexdobin/STAR/archive/2.6.1d.tar.gz $ tar zxvf 2.6.1d.tar.gz
bin/Linux_x86_64にパスを通しておきます。
以下のコマンドでインデックスを作成します。
$ STAR \ --runThreadN 8 \ --runMode genomeGenerate \ --genomeDir genome \ --genomeFastaFiles Homo_sapiens.GRCh38.dna.primary_assembly.fa \ --sjdbGTFfile Homo_sapiens.GRCh38.94.gtf
マッピング
以下のコマンドで、マッピングをします。
$ STAR --genomeDir genome/ \ --runThreadN 8 \ --readFilesIn SRR3485766_1.fastq SRR3485766_2.fastq \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix sample1
リードカウント
HTSeqをインストールしていない場合には、以下のコマンドでインストールできます。
$ pip install numpy $ pip install htseq
以下のコマンドで、リードカウントをします。
$ htseq-count -f bam -r pos -t exon \ sample1Aligned.sortedByCoord.out.bam \ Homo_sapiens.GRCh38.94.gtf \ > result.txt
result.txtにリードカウント結果が得られました。