MinION, HiSeq, Saphyr Systemを使用して植物ゲノムをアセンブル

手順

  • MinIONの結果を使用してアセンブル(Ra, SMARTdenovo, wtdbg, Canuを使用、Raの結果を採用)
  • MinIONの結果を使用して3回ポリッシング(Racon)
  • HiSeqの結果を使用して3回ポリッシング(Pilon)
  • Saphyr Systemの結果と合わせてHybrid Scaffolding

結果

生物種 Brassica rapa Z1 (yellow sarson) Brassica oleracea HDEM (broccoli) Musa schizocarpa (banana)
Contig N50 5.5 Mb 9.5 Mb 10.0 Mb
Scaffold N50 15.4 Mb 29.5 Mb  36.8 Mb

1/4の染色体が1本のScaffold、66%の染色体が1本もしくは2本のScaffoldにまとまった。

参考情報

バイオインフォマティクス解析

バイオインフォマティクスとは

バイオインフォマティクス(Bioinformatics)は、生命情報科学と訳されることもあり、生物学のデータを情報科学の手法によって解析する学問および技術です。 生物学において大量のデータが生み出されるようになるとともに、この分野は急速に発展してきました。特に、近年では次世代シーケンサー(NGS)を使用したシーケンスコストの低下が進み、ますます多くのデータが出力されるようになっています。これらのビッグデータを活用できる人材「バイオインフォマティシャン」の育成が急務であると言われています。


DNA Sequencing Costs: Data

バイオインフォマティクス関連研究室

バイオインフォマティクス関連会社

参考情報

次世代シーケンサー

次世代シーケンサーとは

次世代シーケンサーとは塩基配列を解読するための装置であり、Next-Generation Sequencingを略してNGSとも呼ばれます。 従来のシーケンサー(サンガー法、第一世代シーケンサー)と比べて、1回のシーケンスで大量の配列情報が得られることが特徴です。 一口に次世代シーケンサーと言っても、様々なシーケンサーが各社から販売されています。 代表的な企業としてIllumina、Pacific Biosciences(PacBio), Oxford Nanopore Technologies等が挙げられます。 次世代シーケンサーは大まかにIllumina等の第二世代シーケンサー、Pacific Biosciences(PacBio), Oxford Nanopore Technologies等の第三世代シーケンサーに分類できます。 第二世代シーケンサーは読み取れる塩基の配列長(リード長)は数百塩基程度と短いですが、比較的高い精度で大量の配列情報を読めることが特徴です。 第三世代シーケンサーはデータ量および精度の面で第二世代シーケンサーと比べて劣りますが、長いリードを取得できることが特徴です。

リード長 第二世代シーケンサー < 第三世代シーケンサー
データ量 第二世代シーケンサー > 第三世代シーケンサー
精度  第二世代シーケンサー > 第三世代シーケンサー

Illumina

第二世代シーケンサーに分類されるIlluminaシーケンサーは現在最も多くのシェアを獲得しているシーケンサーです。 iSeq, MiniSeq, MiSeq, NextSeq, HiSeq, HiSeq X, NovaSeq等、多くの製品が展開されており、それぞれ出力できるデータ量や適したアプリケーションが異なります。 Illuminaシーケンサーの特徴は、DNA断片を両端からシーケンスすることができることです。両端から読まれたシーケンスデータはペアエンドリードと呼ばれ、リード長は「2 × n bp」のように表現されます。

MiSeq NextSeq HiSeq NovaSeq
リード長 2 × 300 bp(最大) 2 × 150 bp(最大) 2 × 150 bp(最大) 2 × 150 bp(最大)
データ量 15 Gb 120 Gb 1500 Gb 6000 Gb
精度 99.9 % 99.9 % 99.9 %  99.9 %

参考: イルミナのシーケンスプラットフォーム

Pacific Biosciences

Pacific Biosiences社のシーケンサーは第三世代シーケンサーに分類されます。 1分子リアルタイム(SMRT)シーケンシングと呼ばれる技術により、DNA合成の様子を観測することで塩基配列を決定します。 PacBio RS II、Sequel Systemの2種類が普及していますが、Sequel Systemの方がより新しく、PacBio RS IIはすでに販売が終了しています。

PacBio RS II Sequel System
リード長 平均20 kb 平均20 kb
データ量 1 Gb 10 Gb
精度 86 %  86 %

参考: PACBIO SEQUELシステム

Oxford Nanopore Technologies

Oxford Nanopore Technologiesのシーケンサーは2014年に販売開始された比較的新しいシーケンサーで、第三世代シーケンサーに分類されます。 ナノポア(ナノスケールの穴)の中を核酸が通過する際の電流の変化を計測することで、塩基配列を同定します。 MinION、GridION、PromethION等の製品が展開されており、それぞれ出力できるデータ量が異なります。 MinIONは手のひらサイズのシーケンサーであり、ノートパソコンから電源を供給できるため、実験環境の整っていない場所でもシーケンスが可能です。 試薬の改良等により、リード長・データ量・精度の改善が見込まれます。

MinION GridION PromethION
リード長 最大数百 kb 最大数百 kb 最大数百 kb
データ量 10 Gb 100 Gb 3 Tb
精度 85 % 85 %  85 %

参考: Products

De novoアセンブリ解析

De novoアセンブリ解析とは

De novoアセンブリ解析とは、ゲノム配列がまだ決定されていない生物種について新規にゲノム配列を決定する解析です。

ショートリードによるアセンブリ

De novoアセンブリ解析は、リード配列をつなぎ合わせることでより長い配列を構築する解析です。 より長いリード配列を使用することが望ましいですが、NanoporeやPacBioといったロングリードシーケンサーが出現する以前には、 Illuminaシーケンサー等から得られるショートリードを用いたアセンブリが多く行われていました。 ショートリードを用いたアセンブリのソフトウェアには「SOAPdenovo」、「SPAdes」、「Edena」、「Velvet」等があります。

ロングリードによるアセンブリ

NanoporeやPacBioといったシーケンサーの出現により、De novoアセンブリ解析はロングリードシーケンサーを使用して行うことが多くなってきています。 アセンブリには「Canu」、「SMARTdenovo」といったソフトウェアが使われます。 ロングリードのみを用いたアセンブリではエラーが多くなる傾向にあるため、アセンブリの結果についてショートリードを用いてエラー補正することが多く行われます。 これはポリッシングと呼ばれるステップで「Pilon」や「Nanopolish」といったソフトウェアが使われます。

リシーケンス解析

リシーケンス解析とは

リシーケンス解析とは、ゲノム配列がすでに決定されている生物について、再度ゲノム配列を読み直すことで特定の個体が持っている変異(リファレンス配列とは異なる箇所)を検出する解析のことです。 変異の種類は、大まかに分類するとSNV(一塩基変異), short INDEL(短い挿入・欠失)やSV(構造多型)等があり、検出したい変異に応じて、シーケンサーやソフトウェアを選択します。 また、ゲノム配列をシーケンスする手法には、ゲノム配列全体を読む全ゲノムシーケンス(WGS)と遺伝子領域のみを読む全エクソームシーケンス(WES)がありますが、 近年はシーケンスの価格が下がっていることもあり、全エクソームシーケンスから全ゲノムシーケンスへの移行が進んでいます。

SNV(一塩基変異), short INDEL(短い挿入・欠失)

SNV, short INDELの検出には、Illuminaシーケンサーがよく使われます。 Illuminaシーケンサーの短いリード長(数百塩基程度)でも十分検出が可能であるためです。 NGSで得られたリードをリファレンス配列にマッピングし、マッピング結果からリファレンス配列と異なる箇所(変異)を検出します。 マッピングには「BWA」、変異検出には「GATK」といったソフトウェアがよく使われます。 最近では、GATKと同じアルゴリズムを高速で実行できるように実装したソフトウェア「Sentieon」であったり、FPGAを使用してより高速に実行できる「Dragen」というサーバーを使用することも多くなっています。 また、Deep Learningを活用する新しいアルゴリズムを採用した「DeepVariant」といったソフトウェアの開発も進んでいます。

SV(構造多型)

SVはStructual Varinatの略でinsertion(挿入)、deletion(欠失)、duplication(重複)、inversion(逆位)、translocation(転座)等の種類があります。 deletionやduplicationをまとめてCNV(コピー数多型)と呼ぶこともあります。 SV(構造多型)の検出には、ロングリードシーケンサーを使用することが望ましいですが、価格や精度の問題があり、 現状ではIlluminaシーケンサー等のショートリードシーケンサーも多く使われています。 NGSで得られたリードをリファレンス配列にマッピングし、マッピング結果からSV(構造多型)を検出していきます。 SV(構造多型)検出の際には、リードが2つに分かれてマッピングされていたり(split-read)、ペアリードのインサート長が通常と異なっていたり(discordant read)、Depthが異常であったりといった情報を目安にします。 SV検出のソフトウェアには「Breakdancer」「Pindel」「LUMPY」「VarScan」等様々ありますが、de facto standardと呼べるものは存在していません。

RNAseq解析

RNAseq解析とは

RNAseq解析とは、NGSを使用してRNAの発現量を定量したり検出を行ったりする解析のことです。 RNAの発現定量には、従来マイクロアレイが多く使われてきましたが、 ダイナミックレンジが狭い、クロスハイブリダイゼーション等の影響を受ける等といった欠点がありました。 RNAseq解析は、これらの欠点を克服することに加えて、新規転写産物を検出できる等といった利点があります。 近年では、Illuminaシーケンサーによるシーケンスの価格が低下していることもあり、マイクロアレイからRNAseqへの置き換えが急速に進んでいます。 第三世代シーケンサーであるNanoporeシーケンサーやPacBioシーケンサーを使用して、完全長の配列を得る手法もありますが、 コストや精度の面で広く普及はしていません。

転写産物発現定量

NGSで得られたリードをリファレンス配列にマッピングし、アノテーション情報をもとに転写産物の発現定量を行います。 マッピングには「TopHat」や「STAR」、転写産物の発現定量には「HTSeq」といったソフトウェアが使われます。

De novo転写産物アセンブリ

リファレンス配列を使用せずに、NGSで得られたリードのみから転写産物の配列をアセンブルします。 「Trinity」といったソフトウェアが使われます。

Illumina社がPacific Biosciences社を買収

Illumina社がPacific Biosciences社を買収することに両社が合意したとのこと。買収額はおおよそ12億ドル(約1350億円)。

解説

illumina社のショートリードシーケンサーは、ゲノム解析の低コスト化に成功し、遺伝子解析市場で圧倒的なシェアを占めている。しかしながら、ショートリードシーケンサーには、do novoアセンブリや繰り返し配列の同定が苦手であるという欠点がある。一方で、PacBio社が開発したロングリードシーケンサーは、リード長が平均10kb以上と圧倒的に長く、illumina社のショートリードシーケンサーの欠点を克服するものであった。ただし、PacBio社のロングリードシーケンサーはillumina社のショートリードシーケンサーと比べ、コストが高く、ショートリードシーケンサーを置き換えるまでには至らなかった。最近では、より低コストなロングリードシーケンサーがNanopore社より発売されたこともあり、PacBio社のロングリードシーケンサーが第一選択肢になる場面はかなり限られてきた。PacBio社はこの状況に焦りを感じていたことが想像される。また、illumina社もショートリードシーケンサーの欠点を補完するロングリードシーケンサーが必要であったと考えられる。illumina社とPacBio社の双方の利害が一致して、今回の買収につながったのだろう。

参考

illumina社プレスリリース
DNA解読の米イルミナ、競合PacBioを12億ドルで買収へ