リシーケンス解析

リシーケンス解析とは

リシーケンス解析とは、ゲノム配列がすでに決定されている生物について、再度ゲノム配列を読み直すことで特定の個体が持っている変異(リファレンス配列とは異なる箇所)を検出する解析のことです。 変異の種類は、大まかに分類するとSNV(一塩基変異), short INDEL(短い挿入・欠失)やSV(構造多型)等があり、検出したい変異に応じて、シーケンサーやソフトウェアを選択します。 また、ゲノム配列をシーケンスする手法には、ゲノム配列全体を読む全ゲノムシーケンス(WGS)と遺伝子領域のみを読む全エクソームシーケンス(WES)がありますが、 近年はシーケンスの価格が下がっていることもあり、全エクソームシーケンスから全ゲノムシーケンスへの移行が進んでいます。

SNV(一塩基変異), short INDEL(短い挿入・欠失)

SNV, short INDELの検出には、Illuminaシーケンサーがよく使われます。 Illuminaシーケンサーの短いリード長(数百塩基程度)でも十分検出が可能であるためです。 NGSで得られたリードをリファレンス配列にマッピングし、マッピング結果からリファレンス配列と異なる箇所(変異)を検出します。 マッピングには「BWA」、変異検出には「GATK」といったソフトウェアがよく使われます。 最近では、GATKと同じアルゴリズムを高速で実行できるように実装したソフトウェア「Sentieon」であったり、FPGAを使用してより高速に実行できる「Dragen」というサーバーを使用することも多くなっています。 また、Deep Learningを活用する新しいアルゴリズムを採用した「DeepVariant」といったソフトウェアの開発も進んでいます。

SV(構造多型)

SVはStructual Varinatの略でinsertion(挿入)、deletion(欠失)、duplication(重複)、inversion(逆位)、translocation(転座)等の種類があります。 deletionやduplicationをまとめてCNV(コピー数多型)と呼ぶこともあります。 SV(構造多型)の検出には、ロングリードシーケンサーを使用することが望ましいですが、価格や精度の問題があり、 現状ではIlluminaシーケンサー等のショートリードシーケンサーも多く使われています。 NGSで得られたリードをリファレンス配列にマッピングし、マッピング結果からSV(構造多型)を検出していきます。 SV(構造多型)検出の際には、リードが2つに分かれてマッピングされていたり(split-read)、ペアリードのインサート長が通常と異なっていたり(discordant read)、Depthが異常であったりといった情報を目安にします。 SV検出のソフトウェアには「Breakdancer」「Pindel」「LUMPY」「VarScan」等様々ありますが、de facto standardと呼べるものは存在していません。

RNAseq解析

RNAseq解析とは

RNAseq解析とは、NGSを使用してRNAの発現量を定量したり検出を行ったりする解析のことです。 RNAの発現定量には、従来マイクロアレイが多く使われてきましたが、 ダイナミックレンジが狭い、クロスハイブリダイゼーション等の影響を受ける等といった欠点がありました。 RNAseq解析は、これらの欠点を克服することに加えて、新規転写産物を検出できる等といった利点があります。 近年では、Illuminaシーケンサーによるシーケンスの価格が低下していることもあり、マイクロアレイからRNAseqへの置き換えが急速に進んでいます。 第三世代シーケンサーであるNanoporeシーケンサーやPacBioシーケンサーを使用して、完全長の配列を得る手法もありますが、 コストや精度の面で広く普及はしていません。

転写産物発現定量

NGSで得られたリードをリファレンス配列にマッピングし、アノテーション情報をもとに転写産物の発現定量を行います。 マッピングには「TopHat」や「STAR」、転写産物の発現定量には「HTSeq」といったソフトウェアが使われます。

De novo転写産物アセンブリ

リファレンス配列を使用せずに、NGSで得られたリードのみから転写産物の配列をアセンブルします。 「Trinity」といったソフトウェアが使われます。

Illumina社がPacific Biosciences社を買収

Illumina社がPacific Biosciences社を買収することに両社が合意したとのこと。買収額はおおよそ12億ドル(約1350億円)。

解説

illumina社のショートリードシーケンサーは、ゲノム解析の低コスト化に成功し、遺伝子解析市場で圧倒的なシェアを占めている。しかしながら、ショートリードシーケンサーには、do novoアセンブリや繰り返し配列の同定が苦手であるという欠点がある。一方で、PacBio社が開発したロングリードシーケンサーは、リード長が平均10kb以上と圧倒的に長く、illumina社のショートリードシーケンサーの欠点を克服するものであった。ただし、PacBio社のロングリードシーケンサーはillumina社のショートリードシーケンサーと比べ、コストが高く、ショートリードシーケンサーを置き換えるまでには至らなかった。最近では、より低コストなロングリードシーケンサーがNanopore社より発売されたこともあり、PacBio社のロングリードシーケンサーが第一選択肢になる場面はかなり限られてきた。PacBio社はこの状況に焦りを感じていたことが想像される。また、illumina社もショートリードシーケンサーの欠点を補完するロングリードシーケンサーが必要であったと考えられる。illumina社とPacBio社の双方の利害が一致して、今回の買収につながったのだろう。

参考

illumina社プレスリリース
DNA解読の米イルミナ、競合PacBioを12億ドルで買収へ