ゲノム配列がまだ決定されていない生物種について新規にゲノム配列を決定する「de novoアセンブリ解析」では、第2世代シーケンサー(Illumin等)と比較して長いリード長が得られる第3世代シーケンサー(PacBio, NanoPore等)を使用することが多い。しかしながら、第3世代シーケンサーではリードにエラーが多く含まれており、そのリードをもとにアセンブルすると、遺伝子領域に多くのギャップが含まれた結果が得られてしまう。第2世代シーケンサーの結果を使用してアセンブル結果のエラー補正を実施した場合でも、多くのギャップが残っている。
リファレンス | Gapが含まれる遺伝子の数 | Gapが含まれる遺伝子の割合 |
GRCh38(コントロール) | 161 | – |
Nanopore (Jain et al) | 7022 | 33 % |
PacBio1 (Pendleton et al) | 16630 | 80 % |
PacBio2 (Koren et al) | 5272 | 25 % |
参考情報
Mind the gaps – ignoring errors in long read assemblies critically affects protein prediction