中国で「ゲノム編集の双子」が誕生した件についてのまとめ

2018年11月26日、中国の研究者 賀建奎副教授がゲノム編集の技術を人の受精卵に応用し、双子の女児を誕生させたと主張して話題になっています。

問題の動画:

HIVに耐性を持った女児が生まれたと主張

遺伝子編集ベイビー

ヒトの受精卵をゲノム編集で操作し子供を誕生させることは、倫理、技術の両面から問題が指摘されており、今までに誕生した例はありませんでした。今回の主張が事実だとすると、世界初の誕生例となります。

賀建奎副教授について

賀建奎副教授が所属する南方科技大学のWEBページの紹介によると、

  • 2006年、中国科学技術大学 現代物理学 学士号取得
  • 2010年、ライス大学 生物物理学 博士号取得
  • 2011-2012年 スタンフォード大学 ポスドク

という経歴です。その後、南方科技大学に就職したとされています。
また、賀建奎副教授はビジネスにも積極的で、7社の株主、6社の代表取締役を務めているようです。その中でも、最初に設立したDirect Genomics社は2018年4月に2.18億元を調達するなど、注目を集めていました(科学网)。

批判

南方科技大学は声明を発表し、賀建奎副教授は現在休職中(2018年2月—2021年1月)であり、今回の件について大学は関与していないことを説明しました。今後、独立委員会を設置し、調査を進める予定であるとのことです。
また、中国の科学者の間からも批判の声が上がっており、122人が共同声明を発表し、「人体実験」を行ったことに対して反対を表明しました。

Second International Summit on Human Genome Editingでの発表

2018年11月28日、香港大学で開かれた国際ゲノム編集会議で賀建奎副教授が発表を行いました。この発表は、今回の騒動以前から予定されていたものであり、元の発表内容を変更して行われました。発表では、マウスにおけるCCR5ノックアウトについての説明、そして今回の件のヒトにおけるCCR5ノックアウトについての説明がありました。その後、参加者から質問を受け付けました。その中で、遺伝病を持った患者たちを助けるために、今回の成果が役に立つことを強調しました。また、今回生まれた双子以外にも、もう一人妊娠している女性がいることを明らかにしました。

参考:贺建奎的“基因编辑婴儿”是一项突破吗?不,可能是倒退

バイオインフォマティクスにおけるパイプラインの構築にはどのフレームワークを使用すれば良いか

バイオインフォマティクス解析においては、多数のOSS(オープンソースソフトウェア)を組み合わせてパイプラインを構築することがよくあります。パイプラインの構築は、自分の好きな言語を選んで自己流で行うことも可能ですが、パイプライン構築用のフレームワークを使用することで、可読性が高く、簡潔なプログラムを書くことができるようになります。
多くのフレームワークではDockerコンテナに対応しているため、多数のOSSの実行環境を整備するといった手間のかかる作業を短縮することができます。また、Dockerコンテナを使用すると、パイプラインのポータビリティが高まりますので、他の研究者へパイプラインを渡したり、クラウド上でパイプラインを実行したりすることも容易になります(再現性の向上)。
パイプライン構築用のフレームワークは、awesome-pipelineにまとめられています。たくさんありますので、そのうち主なものを以下にまとめました。

snakemake

Pythonベースのフレームワーク。Pythonの記法が使えるので、柔軟なワークフローが設計できる。ただ、柔軟なワークフローが設計できる分、タスクごとにDockerで実行環境を分離する考え方と相性が悪く、パイプラインのポータビリティはあまり良くない印象。

例)

rule targets:
    input:
        "plots/dataset1.pdf",
        "plots/dataset2.pdf"

rule plot:
    input:
        "raw/{dataset}.csv"
    output:
        "plots/{dataset}.pdf"
    shell:
        "somecommand {input} {output}"

Common Workflow Language(CWL)

ワークフローを記述するための統一言語。CWLを実行するためのソフトウェアはcwltoolArvadostoil等たくさん開発されている。

例)

#!/usr/bin/env cwl-runner

cwlVersion: v1.0
class: CommandLineTool
baseCommand: echo
inputs:
  message:
    type: string
    inputBinding:
      position: 1
outputs: []

Nextflow

CWLと目指す方向はほぼ一緒であるが、CWLは言語仕様と実行エンジンが分離しているのに対して、Nextflowは同一である。その分、Nextflowの方がCWLと比べて柔軟にワークフローを記述できる印象。

例)

params.query = "$HOME/sample.fa"
params.db = "$HOME/tools/blast-db/pdb/pdb"

process blast {
    output:
     file top_hits

    """
    blastp -query ${params.query} -db ${params.db} -outfmt 6 \
    | head -n 10 \
    | cut -f 2 > top_hits
    """
}

process extract {
    input:
     file top_hits
    output:
     file sequences

    "blastdbcmd -db ${params.db} -entry_batch $top_hits > sequences"
}

process align {
    input:
     file sequences
    echo true

    "t_coffee $sequences 2>&- | tee align_result"
}

メモ

NextflowのGitHubスター数が635、CWLのGitHubスター数が815(2018年11月19日)であることから、CWLがやや優勢?

バイオインフォマティクスを始めるのにどの言語を勉強したら良いか

バイオインフォマティクスをこれから始める人にどの言語を使用したら良いかと質問されることがよくある。周りのバイオインフォマティシャンに質問してみると、たぶん返ってくる答えはPython, Perl, Rubyのいずれかだと思う。結論からいうと、2018年現在でバイオインフォマティクスをこれから始める人にふさわしい言語はPython一択であると考えられる。

Pythonはユーザー数が多い

それぞれの言語のユーザー数がどれくらいいるか正確に把握することは難しいが、参考までにGoogleトレンドの結果を示す。


全世界:

日本:

世界的には2011年後頃からPerlを逆転してPythonがトップになっている。日本でも2014年頃にはPythonがPerlを抜いている。

なぜユーザー数が多い言語を選ぶべきか

Pythonのユーザー数が多いことは理解いただけたかと思うが、なぜユーザー数が多い言語を選ぶべきかを説明する。

理由1. ドキュメントが豊富

ドキュメントが豊富である一例として、プログラミングに関するQ&Aサイトである「Stack Overflow」の検索結果を示す。

Python 1,059,777 件
Perl 60,952件
Ruby  199,959 件

圧倒的にPythonの件数が多くなっている。WEB上に情報が多ければ、問題が起きた時にググるだけで解決する可能性が高い。

理由2. ライブラリーが充実

ライブラリーが充実してる一例として、バイオインフォマティクス向けのライブラリーであるBioPython, BioPerl, BioRubyを比較してみる。まずはそのライブラリーの開発に貢献した人数である「Contributer」の数を見てみる。

BioPython 208人
BioPerl 62人
BioRuby 30人

BioPythonが最も多くの人が関わっている。次に、直近1年の更新頻度を見てみる。

BioPython:

BioPerl:

BioRuby:

縦軸に注意してもらいたい。圧倒的にBioPythonの更新頻度が多くなっている。
ユーザー数の多い言語のライブラリーほど、多くの人が関わり、更新頻度が高くなるので、機能が充実している&バグが少ない可能性が高い。

まとめ

以上のように、バイオインフォマティクスをこれから始める人にふさわしい言語はユーザー数の多いPythonであると考えられる。過去に開発されたプログラムはPerlだからPerlを使うべきという人がいるが、進歩の早いこの分野においては、10年前のプログラムは使い物にならないことが多い。また、Rubyを勧める人の言い分で「Rubyは日本語ドキュメントが充実している」という人がいるが、主にWEB開発に関するドキュメントであり、バイオインフォマティクスにはほとんど役に立たない。今後他の言語が主流になる可能性は否定しないが、現状としてはPythonをお勧めする。

ロングリードでのアセンブルは遺伝子予測結果にエラーが多く含まれる

ゲノム配列がまだ決定されていない生物種について新規にゲノム配列を決定する「de novoアセンブリ解析」では、第2世代シーケンサー(Illumin等)と比較して長いリード長が得られる第3世代シーケンサー(PacBio, NanoPore等)を使用することが多い。しかしながら、第3世代シーケンサーではリードにエラーが多く含まれており、そのリードをもとにアセンブルすると、遺伝子領域に多くのギャップが含まれた結果が得られてしまう。第2世代シーケンサーの結果を使用してアセンブル結果のエラー補正を実施した場合でも、多くのギャップが残っている。

リファレンス Gapが含まれる遺伝子の数 Gapが含まれる遺伝子の割合
GRCh38(コントロール) 161
Nanopore (Jain et al) 7022 33 %
PacBio1 (Pendleton et al) 16630 80 %
PacBio2 (Koren et al)  5272 25 %

参考情報

Mind the gaps – ignoring errors in long read assemblies critically affects protein prediction

メタゲノム解析

メタゲノム解析とは

メタゲノム解析とは、微生物群を直接シーケンスし、網羅的に菌種や遺伝子を特定する解析のことです。糞便や皮膚、海洋や土壌等といったサンプルを対象として研究が進められています。解析の手法には大きく分けて、全ゲノムを対象としてシーケンスする「ショットガンメタゲノム解析」と16S rRNAのみを対象としてシーケンスする「16S rRNAメタゲノム解析」の2種類があります。現在は主にショートリードシーケンサーが使用されていますが、今後はロングリードシーケンサーを使用することで、より精度の高い解析が可能になることが期待されます。

ショットガンメタゲノム解析

ショットガンメタゲノム解析におけるバイオインフォマティクス解析の手法は、大きく分けて2つあります。1つはリファレンス配列を使用せずアセンブリを行う手法で、「MetaSPAdes」や「MEGAHIT」といったソフトウェアがあります。もう1つは、リファレンス配列に対してマッピングをする手法で、「MetaPhlAn」といったソフトウェアがあります。ヒトの糞便サンプル等といった研究が比較的進んでいる分野については、マッピングの手法が使われることが多いようです。

16S rRNAメタゲノム解析

16S rRNAメタゲノム解析は16S rRNAのみをシーケンス対象とすることで、解像度は落ちる分、低コストで解析を実施することが可能です。16S rRNAメタゲノム解析には「QIIME」といったソフトウェアがよく使われます。

バイオインフォマティクス解析でよく使われるファイル形式

バイオインフォマティクス解析では様々なファイル形式が使用されています。ここでは、主要なファイル形式を紹介します。

MinION, HiSeq, Saphyr Systemを使用して植物ゲノムをアセンブル

手順

  • MinIONの結果を使用してアセンブル(Ra, SMARTdenovo, wtdbg, Canuを使用、Raの結果を採用)
  • MinIONの結果を使用して3回ポリッシング(Racon)
  • HiSeqの結果を使用して3回ポリッシング(Pilon)
  • Saphyr Systemの結果と合わせてHybrid Scaffolding

結果

生物種 Brassica rapa Z1 (yellow sarson) Brassica oleracea HDEM (broccoli) Musa schizocarpa (banana)
Contig N50 5.5 Mb 9.5 Mb 10.0 Mb
Scaffold N50 15.4 Mb 29.5 Mb  36.8 Mb

1/4の染色体が1本のScaffold、66%の染色体が1本もしくは2本のScaffoldにまとまった。

参考情報

バイオインフォマティクス解析

バイオインフォマティクスとは

バイオインフォマティクス(Bioinformatics)は、生命情報科学と訳されることもあり、生物学のデータを情報科学の手法によって解析する学問および技術です。 生物学において大量のデータが生み出されるようになるとともに、この分野は急速に発展してきました。特に、近年では次世代シーケンサー(NGS)を使用したシーケンスコストの低下が進み、ますます多くのデータが出力されるようになっています。これらのビッグデータを活用できる人材「バイオインフォマティシャン」の育成が急務であると言われています。


DNA Sequencing Costs: Data

バイオインフォマティクス関連研究室

バイオインフォマティクス関連会社

参考情報

次世代シーケンサー

次世代シーケンサーとは

次世代シーケンサーとは塩基配列を解読するための装置であり、Next-Generation Sequencingを略してNGSとも呼ばれます。 従来のシーケンサー(サンガー法、第一世代シーケンサー)と比べて、1回のシーケンスで大量の配列情報が得られることが特徴です。 一口に次世代シーケンサーと言っても、様々なシーケンサーが各社から販売されています。 代表的な企業としてIllumina、Pacific Biosciences(PacBio), Oxford Nanopore Technologies等が挙げられます。 次世代シーケンサーは大まかにIllumina等の第二世代シーケンサー、Pacific Biosciences(PacBio), Oxford Nanopore Technologies等の第三世代シーケンサーに分類できます。 第二世代シーケンサーは読み取れる塩基の配列長(リード長)は数百塩基程度と短いですが、比較的高い精度で大量の配列情報を読めることが特徴です。 第三世代シーケンサーはデータ量および精度の面で第二世代シーケンサーと比べて劣りますが、長いリードを取得できることが特徴です。

リード長 第二世代シーケンサー < 第三世代シーケンサー
データ量 第二世代シーケンサー > 第三世代シーケンサー
精度  第二世代シーケンサー > 第三世代シーケンサー

Illumina

第二世代シーケンサーに分類されるIlluminaシーケンサーは現在最も多くのシェアを獲得しているシーケンサーです。 iSeq, MiniSeq, MiSeq, NextSeq, HiSeq, HiSeq X, NovaSeq等、多くの製品が展開されており、それぞれ出力できるデータ量や適したアプリケーションが異なります。 Illuminaシーケンサーの特徴は、DNA断片を両端からシーケンスすることができることです。両端から読まれたシーケンスデータはペアエンドリードと呼ばれ、リード長は「2 × n bp」のように表現されます。

MiSeq NextSeq HiSeq NovaSeq
リード長 2 × 300 bp(最大) 2 × 150 bp(最大) 2 × 150 bp(最大) 2 × 150 bp(最大)
データ量 15 Gb 120 Gb 1500 Gb 6000 Gb
精度 99.9 % 99.9 % 99.9 %  99.9 %

参考: イルミナのシーケンスプラットフォーム

Pacific Biosciences

Pacific Biosiences社のシーケンサーは第三世代シーケンサーに分類されます。 1分子リアルタイム(SMRT)シーケンシングと呼ばれる技術により、DNA合成の様子を観測することで塩基配列を決定します。 PacBio RS II、Sequel Systemの2種類が普及していますが、Sequel Systemの方がより新しく、PacBio RS IIはすでに販売が終了しています。

PacBio RS II Sequel System
リード長 平均20 kb 平均20 kb
データ量 1 Gb 10 Gb
精度 86 %  86 %

参考: PACBIO SEQUELシステム

Oxford Nanopore Technologies

Oxford Nanopore Technologiesのシーケンサーは2014年に販売開始された比較的新しいシーケンサーで、第三世代シーケンサーに分類されます。 ナノポア(ナノスケールの穴)の中を核酸が通過する際の電流の変化を計測することで、塩基配列を同定します。 MinION、GridION、PromethION等の製品が展開されており、それぞれ出力できるデータ量が異なります。 MinIONは手のひらサイズのシーケンサーであり、ノートパソコンから電源を供給できるため、実験環境の整っていない場所でもシーケンスが可能です。 試薬の改良等により、リード長・データ量・精度の改善が見込まれます。

MinION GridION PromethION
リード長 最大数百 kb 最大数百 kb 最大数百 kb
データ量 10 Gb 100 Gb 3 Tb
精度 85 % 85 %  85 %

参考: Products

De novoアセンブリ解析

De novoアセンブリ解析とは

De novoアセンブリ解析とは、ゲノム配列がまだ決定されていない生物種について新規にゲノム配列を決定する解析です。

ショートリードによるアセンブリ

De novoアセンブリ解析は、リード配列をつなぎ合わせることでより長い配列を構築する解析です。 より長いリード配列を使用することが望ましいですが、NanoporeやPacBioといったロングリードシーケンサーが出現する以前には、 Illuminaシーケンサー等から得られるショートリードを用いたアセンブリが多く行われていました。 ショートリードを用いたアセンブリのソフトウェアには「SOAPdenovo」、「SPAdes」、「Edena」、「Velvet」等があります。

ロングリードによるアセンブリ

NanoporeやPacBioといったシーケンサーの出現により、De novoアセンブリ解析はロングリードシーケンサーを使用して行うことが多くなってきています。 アセンブリには「Canu」、「SMARTdenovo」といったソフトウェアが使われます。 ロングリードのみを用いたアセンブリではエラーが多くなる傾向にあるため、アセンブリの結果についてショートリードを用いてエラー補正することが多く行われます。 これはポリッシングと呼ばれるステップで「Pilon」や「Nanopolish」といったソフトウェアが使われます。