ロングリードでのアセンブルは遺伝子予測結果にエラーが多く含まれる

ゲノム配列がまだ決定されていない生物種について新規にゲノム配列を決定する「de novoアセンブリ解析」では、第2世代シーケンサー(Illumin等)と比較して長いリード長が得られる第3世代シーケンサー(PacBio, NanoPore等)を使用することが多い。しかしながら、第3世代シーケンサーではリードにエラーが多く含まれており、そのリードをもとにアセンブルすると、遺伝子領域に多くのギャップが含まれた結果が得られてしまう。第2世代シーケンサーの結果を使用してアセンブル結果のエラー補正を実施した場合でも、多くのギャップが残っている。

リファレンス Gapが含まれる遺伝子の数 Gapが含まれる遺伝子の割合
GRCh38(コントロール) 161
Nanopore (Jain et al) 7022 33 %
PacBio1 (Pendleton et al) 16630 80 %
PacBio2 (Koren et al)  5272 25 %

参考情報

Mind the gaps – ignoring errors in long read assemblies critically affects protein prediction

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です