リシーケンス解析

リシーケンス解析とは

リシーケンス解析とは、ゲノム配列がすでに決定されている生物について、再度ゲノム配列を読み直すことで特定の個体が持っている変異（リファレンス配列とは異なる箇所）を検出する解析のことです。変異の種類は、大まかに分類するとSNV（一塩基変異）, short INDEL（短い挿入・欠失）やSV(構造多型)等があり、検出したい変異に応じて、シーケンサーやソフトウェアを選択します。また、ゲノム配列をシーケンスする手法には、ゲノム配列全体を読む全ゲノムシーケンス（WGS）と遺伝子領域のみを読む全エクソームシーケンス（WES）がありますが、近年はシーケンスの価格が下がっていることもあり、全エクソームシーケンスから全ゲノムシーケンスへの移行が進んでいます。

SNV（一塩基変異）, short INDEL（短い挿入・欠失）

SNV, short INDELの検出には、Illuminaシーケンサーがよく使われます。 Illuminaシーケンサーの短いリード長（数百塩基程度）でも十分検出が可能であるためです。 NGSで得られたリードをリファレンス配列にマッピングし、マッピング結果からリファレンス配列と異なる箇所（変異）を検出します。マッピングには「BWA」、変異検出には「GATK」といったソフトウェアがよく使われます。最近では、GATKと同じアルゴリズムを高速で実行できるように実装したソフトウェア「Sentieon」であったり、FPGAを使用してより高速に実行できる「Dragen」というサーバーを使用することも多くなっています。また、Deep Learningを活用する新しいアルゴリズムを採用した「DeepVariant」といったソフトウェアの開発も進んでいます。

SV(構造多型)

SVはStructual Varinatの略でinsertion(挿入)、deletion(欠失)、duplication(重複)、inversion(逆位)、translocation(転座)等の種類があります。 deletionやduplicationをまとめてCNV(コピー数多型)と呼ぶこともあります。 SV(構造多型)の検出には、ロングリードシーケンサーを使用することが望ましいですが、価格や精度の問題があり、現状ではIlluminaシーケンサー等のショートリードシーケンサーも多く使われています。 NGSで得られたリードをリファレンス配列にマッピングし、マッピング結果からSV(構造多型)を検出していきます。 SV(構造多型)検出の際には、リードが２つに分かれてマッピングされていたり(split-read)、ペアリードのインサート長が通常と異なっていたり(discordant read)、Depthが異常であったりといった情報を目安にします。 SV検出のソフトウェアには「Breakdancer」「Pindel」「LUMPY」「VarScan」等様々ありますが、de facto standardと呼べるものは存在していません。