汚染シークエンシングリードを簡単に除外する GenomeFLTR

　過去10年間、シーケンス技術の進歩により、ゲノムデータは飛躍的に増加した。これらの新しいデータは、遺伝子やゲノムの進化や機能に関する我々の理解を劇的に変化させてきた。シーケンサー技術の向上にもかかわらず、汚染されたリードを特定することは、多くの研究グループにとって依然として複雑なタスクである。ここでは、汚染されたリードをフィルタリングするための新しいウェブサーバーであるGenomeFLTRを紹介する。リードを様々な代表的な生物の既存の配列データベースと比較し、潜在的な汚染物質を検出する。GenomeFLTRに実装されている主な機能は以下の通りである： (i) 関連データベースの自動更新、(ii) 各リードとデータベースの高速比較、(iii) ユーザー指定のデータベースの作成機能、(iv) 汚染の起源と頻度を調べるためのユーザーフレンドリーなインタラクティブダッシュボード、 (v) 汚染なしファイルの作成。利用可能なサービス；https://genomefltr.tau.ac.il/で公開されている。

Github

webサービス

https://genomefltr.tau.ac.ilにアクセスする。

Webサーバーは、ノードごとに128GBのRAMと28個のCPUコアを搭載したProLiant XL170r Gen9へ処理するジョブを送信する。背景画像はDALL·E 2を用いて生成されている（マニュアルより）。

シンプルなインターフェイスになっており、簡単に使うことができるように設計されている。SUBMITをクリックし、まずメールアドレスと名前を入力する。

続いてfastqを指定する。シングルエンドとペアエンドいずれにも対応している。

FastqやFastaに対応している。

フィルタリング対象のデータベース（汚染が想定される生物）を指定する。例えばヒトゲノムのシークエンシングでバクテリアの汚染をフィルタリングしたいならBACTERIAを選択する。ベクターの汚染をフィルタリングしたいならUNIVECを選択する。

GenomeFLTRで利用可能な配列データベースは、NCBIから毎月自動的に更新される。これらのデータベースは、Kraken検索エンジンのフォーマットに合わせて処理されている。また、まずunivecデータベースに対してリードをフィルタリングし、次に得られたクリーンなデータを細菌汚染などに対してフィルタリングするというように、フィルタリングを繰り返すこともできる（論文より）。

最後に実行内容を確認してサブミットする。実行にはしばらく時間がかかる。

100MBのリードを使用すると数分で結果のページがロードされた。

この画面ではまだフィルタリングは行われていない。kraken2 DBに対するヒットに基づいて閾値を設定する。実際にフィルタリングプロセスを開始するには、下のGet filtered resultsボタンを押す。するとポストプロセスが開始され、汚染されたリードから「クリーン」なリードが識別される。

しばらく待つと、フィルタリングをパスしたリードと、フィルタリングされたリードそれぞれをダウンロードできる。

exampleの結果

赤い線は現在選択されているフィルタリングの閾値を表している。線を左右に移動させることで、フィルタリング感度を変更することができる。結果は右側の表と円グラフにリアルタイムに反映される。また、中央の表の特定の種だけチェックを外すことで特定の種のリードだけフィルタリング対象から除外できる。

論文では、ケーススタディとして、Kudoa iwataiという魚に寄生する胞子虫のトランスクリプトームデータのフィルタリングが行われています。読んでみて下さい。

引用

GenomeFLTR: filtering reads made easy
Edo Dotan, Michael Alburquerque, Elya Wygoda, Dorothée Huchon, Tal Pupko
Nucleic Acids Research, Published: 13 May 2023

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

汚染シークエンシングリードを簡単に除外する GenomeFLTR