STARとhtseq-countでRNAseq解析を行う

データの準備

解析対象とするfastqファイルをダウンロードしていきます。
SRA Toolkitをインストールしていない場合には、以下のコマンドでインストールできます。

$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
$ tar zxvf sratoolkit.current-ubuntu64.tar.gz

binフォルダにパスを通しておいてください。
以下のコマンドでSRR3485766のfastqファイルをダウンロードできます。

$ fastq-dump -A SRR3485766 --split-files 

これで、カレントディレクトリに SRR3485766_1.fastqとSRR3485766_2.fastqが作成されました。

マッピングの準備

参照配列をダウンロードします。

$ wget ftp://ftp.ensembl.org/pub/release-94/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
$ gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
$ wget ftp://ftp.ensembl.org/pub/release-94/gtf/homo_sapiens/Homo_sapiens.GRCh38.94.gtf.gz
$ gunzip Homo_sapiens.GRCh38.94.gtf.gz

次に、STARのインデックスを作成していきます。
STARをインストールしていない場合には、以下のコマンドでインストールできます。

$ wget https://github.com/alexdobin/STAR/archive/2.6.1d.tar.gz
$ tar zxvf 2.6.1d.tar.gz

bin/Linux_x86_64にパスを通しておきます。
以下のコマンドでインデックスを作成します。

$ STAR \
  --runThreadN 8 \
  --runMode genomeGenerate \
  --genomeDir genome \
  --genomeFastaFiles Homo_sapiens.GRCh38.dna.primary_assembly.fa \
  --sjdbGTFfile Homo_sapiens.GRCh38.94.gtf 

マッピング

以下のコマンドで、マッピングをします。

$ STAR --genomeDir genome/ \
  --runThreadN 8 \
  --readFilesIn SRR3485766_1.fastq SRR3485766_2.fastq \
  --outSAMtype BAM SortedByCoordinate \
  --outFileNamePrefix sample1

リードカウント

HTSeqをインストールしていない場合には、以下のコマンドでインストールできます。

$ pip install numpy
$ pip install htseq

以下のコマンドで、リードカウントをします。

$ htseq-count -f bam -r pos -t exon \
  sample1Aligned.sortedByCoord.out.bam \
  Homo_sapiens.GRCh38.94.gtf \
  > result.txt

result.txtにリードカウント結果が得られました。

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です