macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

marginPhase

 

 リファレンスベースの遺伝的変異の同定は、ジェノタイピングとphasingという2つの関連プロセスから成り立っている。ジェノタイピングは、個人のゲノムにどのような遺伝的変異が存在するかを決定するプロセスである。ある部位の遺伝子型とは、両方の染色体コピーがバリアント対立遺伝子を持っているか、片方だけが持っているか、あるいはバリアント対立遺伝子が全く存在しないかを示す。フェーシングとは、個人のハプロタイプを決定することであり、これは同じ染色体上で互いに近くに存在し、一緒に遺伝するバリアントで構成されている。生物のすべての遺伝的変異を完全に記述するためには、ジェノタイピングとフェーズングの両方が必要である。この2つのプロセスを合わせて、ディプロタイプと呼ばれている。

 多くの既存のバリアント解析パイプラインは、ショートDNAシーケンスリード用に設計されている。ショートリードは塩基レベルでは非常に正確だが、特に繰り返しや重複する領域では、ゲノムに明確にアラインすることが難しいという問題がある。その結果、現在のところ、基準となるヒトゲノムの何百万塩基もの塩基が、主に染色体のセントロメアや短腕の近くのマルチメガバイトギャップで、ショートリードによって確実に遺伝子型を決定することができていない。ショートリードはこれらの領域に一意にマッピングすることができないが、ロングリードはこれらの領域にまたがる可能性がある。ロングリードは、リードベースのハプロタイピング、大規模な構造変異の検出、およびde novoアセンブリに有用であることがすでに証明されている[ref,5-8]。ここでは、より包括的なジェノタイピングのためのロングリードの有用性を実証する。これらの技術は歴史的に相対的にコストが高く、シーケンスエラー率が高いため、これまでこの問題にはほとんど注目されていなかった。しかし、ロングリードDNAシーケンシング技術は急速に価格が下がり、一般的に利用できるようになってきている。このような技術としては、Pacific Biosciences社(PacBio)の1分子リアルタイム(SMRT)シーケンシングやOxford Nanopore Technologies社(ONT)のナノポアシーケンシングがあり、いずれも本研究で評価している。

 ジェノタイピングの問題は、ロングリードシークエンシングデータからハプロタイプを推論する作業に関連しており、豊富な文献や多くのツールが存在している。ハプロタイプ再構成の最も一般的な形式化は、 minimum error correction(MEC)問題である。MEC問題は、同じハプロタイプからのリードを互いに整合性のあるものにするために、最小のエラー数を修正する必要があるように、ハプロタイプごとにリードを分割しようとする問題である。原理的には、この問題の定式化は遺伝子型を推論するのに役立つが、実際には「すべてのヘテロ接合体」が仮定されている。ハプロタイプ再構成のためのツールは、一般的にヘテロ接合体の位置のセットが入力として与えられることを仮定しており、これらのサイトのみを対象としている。

 このようなツールの一般的な欠如にもかかわらず、ロングリードを用いたジェノタイピングのためのいくつかの方法が提案されている。Guoら[ref.17]は、ロングリード一塩基バリアント(Single-nucleotide variant: SNV)コールとハプロタイプ再構成のための方法を記述しており、この方法では、各SNV部位で、その部位に重なる近くのリードと最もよく一致する模範的なリードを特定する。次に、隣接する SNV サイトの模範となるリードとの類似性に基づいて、そのサイト周辺のリードを分割する。しかし、この方法ではハプロタイプ間の最適なリードの分割が保証されておらず、著者らの報告によると、NA12878のPacBioデータでは比較的高い偽発見率(15.7%)と偽陰性率(11.0%)が報告されており、これはわずか86.6%のF1スコアに対応している。さらに、2つのグループが現在、学習ベースのバリアントコーラーを開発しており、彼らは、ノイズの多いロングリードを使用して動作するように調整できることを示している。最近のプレプリントでは、Luo et al. [18] が、ロングリードデータからバリアントコールするために畳み込みニューラルネットワーク (CNN) を使用する方法を記述している。(一部略)

 ロングリードを使用して隣接するサイト間のディプロタイプを行うことの潜在的な利点を説明するために、論文図1aを考える。ロングリードでカバーされている3つのSNV位置が示されている。灰色の配列は真のハプロタイプ配列を表しており、リードは青と赤で着色されている。シーケンシングエラーが発生する可能性があるため、リードによってサポートされる対立遺伝子は、灰色で示されているハプロタイプの真の対立遺伝子とは必ずしも一致していない。SNVを個別に考えると、各アレルをサポートするリードの数が同じなので、最初のものをA/C、2番目のものをT/G、3番目のものをG/Cと呼ぶのが妥当だろう。これは、2つ目のSNVの予測を誤ってしまうことになる。しかし、もし各リードがどのハプロタイプに由来するかがわかれば、つまりその色がわかれば、2番目のSNV部位でシーケンスエラーが発生しているはずだということがわかる。同じハプロタイプに由来するリードは同じアレルをサポートしていなければならず、また、この部位のハプロタイプに由来するリード間には不一致があるため、この遺伝子座での遺伝子型予測は非常に不確実なものとして扱われなければならない。したがって、遺伝子型決定の際にハプロタイプ情報を使用することで、不確実性を検出し、より信頼性の高い遺伝子型予測を計算することが可能になる。

 本論文では、現代のロングリード技術において、リードベースのphase推論をSNVのジェノタイピングプロセスと同時に組み合わせることで、正確なディプロタイプを作成し、ショートリードではマッピングできない領域のバリアントを検出することができることを示す。この推論の鍵は、リード内のヘテロ接合部位間の連結関係を検出することであることを示す。これを実現するために、著者らは、ノイズの多いロングリードから正確にディプロタイプを予測するための新しいアルゴリズムを記述した。

次に、このアルゴリズムを1000 Genomes ProjectのNA12878の1人の個体のディプロタイプに適用した。NA12878は広範囲にシークエンスされ研究されており、Genome in a Bottle Consortiumは、これらのゲノム領域内の高信頼性領域とそれに対応する高信頼性バリアントコールのセットを発表している[ref.20]。本論文では、提案する方法が正確であり、不確実性の高い領域のバリアントを確認するために使用でき、ショートDNAリードシーケンス技術を使用してマッピングできない領域のバリアントの発見を可能にすることを実証する。

 

 

インストール

ビルド依存

  • cmake version 3.7 (or higher):
wget https://cmake.org/files/v3.7/cmake-3.7.2-Linux-x86_64.sh && mkdir /opt/cmake && sh cmake-3.7.2-Linux-x86_64.sh --prefix=/opt/cmake --skip-license && ln -s /opt/cmake/bin/cmake /usr/local/bin/cmake

apt-get -y install git make gcc g++ autoconf bzip2 lzma-dev zlib1g-dev libcurl4-openssl-dev libcrypto++-dev libpthread-stubs0-dev libbz2-dev liblzma-dev

GIthub

git clone git@github.com:benedictpaten/marginPhase.git
cd marginPhase/
git submodule update --init
mkdir build
cd build
cmake ..
make -j 8

調整中

 

 

引用

Haplotype-aware diplotyping from noisy long reads

Jana Ebler, Marina Haukness, Trevor Pesout, Tobias Marschall & Benedict Paten
Genome Biology volume 20, Article number: 116 (2019) Cite this article