2025/09/09 タイトル修正
生命の多様性の広がりは計り知れないが、公開されている核酸配列データは地球規模での遺伝的多様性の分散と進化を垣間見せる。しかし配列データの急速な増加と蓄積は、効率的な解析能力を凌駕している。自由に利用可能なシーケンスデータ最大のコレクションは、2730万のデータセット(5×10¹⁶塩基対)からなるシーケンスリードアーカイブ(SRA)である。SRAの可能性を実現するため、本著者らはLoganを開発した。これは大規模シーケンスアセンブリシステムであり、ショートリードをロングコンティグに変換し、データを100倍以上圧縮することで、ペタベース規模の超効率的解析を可能にする。さらに、Logan-Searchを開発した。これはLoganのk-merインデックスであり、数分で一致結果を返す無料の惑星規模配列検索を実現する。Loganコンティグを用いて2億以上のプラスチック分解酵素ホモログを同定し、現行の参照基準を超える触媒活性を有する新規酵素を検証した。さらに、既知のタンパク質多様性(UniRef50比30倍)、プラスミド(PLSDB比22倍)、P4サテライト(4.5倍)、および最近報告されたオベリスクRNAエレメント(3.7倍)を大幅に拡大した。Loganは生態学的・生物医学的データマイニングも可能にし、例えば抗菌薬耐性遺伝子の世界的な追跡や、数百万の人間バイオサンプルにおけるウイルス再活性化の特性解析を実現する。SRAを変革することで、Loganは世界の公開遺伝データへのアクセスを民主化し、バイオテクノロジー、分子生態学、グローバルヘルスにおける新たな可能性を切り開く。
🌎👩🔬 For 15+ years biology has accumulated petabytes (million gigabytes) of🧬DNA sequencing data🧬 from the far reaches of our planet.🦠🍄🌵
— Rayan Chikhi (@RayanChikhi) September 3, 2025
Logan now democratizes efficient access to the world’s most comprehensive genetics dataset. Free and open.https://t.co/dDBtAjfdYL pic.twitter.com/qeNpAUiZVp
One year after our initial preprint, we're excited to post a major update to Logan.
— Rayan Chikhi (@RayanChikhi) September 3, 2025
At its heart, Logan is the assembly of 27 million samples (50 Pbp) using a 6-day cloud-compute peaking at 2.2M vCPUs. This compresses the SRA 140x compared to raw FASTQs.https://t.co/88WUP47Ta3 pic.twitter.com/Q5esjWzbYo
Logan enables minute-scale k-mer search, and hour-scale deep homology protein alignment search, across 100+ Billion proteins.https://t.co/Oy4ieveK0I pic.twitter.com/qSY8V5fs4C
— Rayan Chikhi (@RayanChikhi) September 3, 2025
Rayan Chikhi | Project Logan Assembling all public sequencing data | CGSI 2024
アセンブルされた配列
レポジトリのData accessからunitig、contig、protein(Logan50)をダウンロード可能
(Logan50: Prodigalを用いてLoganコンティグからタンパク質配列を予測。これをMMseqs2を用いて50%同一性でクラスタリングしたもの)
Logan Search
DNA/RNA/タンパク質配列をクエリとして入力して、それがどの accessionに含まれているかを探索する。さらに、その配列がどのunitigやcontigに含まれているかまでユーザーに返す。
https://logan-search.org/
(HPより: DNA配列が与えられると、本サービスは数分以内にその配列が存在する可能性の高いSRAアクセス番号を返答します。また、対象アクセス番号に関連するメタデータの取得や、いくつかの可視化機能も提供します。
技術的な詳細としては、検索エンジンはブルームフィルタを用いたk-merベースの配列検索ツールであるkmindexを利用しています。これはSRAの全ゲノムアセンブリ、より具体的にはLoganのunitig全体に対してインデックスを構築するために適用されました。本ウェブサイトでは可視化ツールkmvizを実行しています。)
左上のquery the planetをクリックする。

DNA配列(fasta/fastq形式)、メールアドレス、グループを指定して実行する。

グループは複数追加できる。

1個の遺伝子配列をクエリとして"metagenome"のグループ指定で実行したところ、テスト時は10分ほどでメールが届いた。
デモデータには以下の配列が挙げられている。

- 海洋性の単細胞藻類ゲノムの 1 kbp
- Homo sapiens のHAR1A 遺伝子の 1 kbp(HAR1A = Human Accelerated Region 1A。霊長類進化に関連することで有名な領域)
- 皇帝ペンギンのゲノム断片 250 bp
- ウーパールーパーの mRNA 800 bp
- クレブシエラ属細菌 (Klebsiella indica) のゲノム断片 800 bp
デモの結果を見てみる。
結果の表が提示され、ヒットした配列のkmer coverage、bioproject、biosample、そのほかのメタデータが示される。

上のタブからMapに切り替え。

Plotタブ

この配列はseawater metagenomeのSRAに多く見つかる。
引用
Logan: Planetary-Scale Genome Assembly Surveys Life’s Diversity
Rayan Chikhi, Téo Lemane, Raphaël Loll-Krippleber, Mercè Montoliu-Nerin, Brice Raffestin, Antonio Pedro Camargo, Carson J. Miller, Mateus Bernabe Fiamenghi, Daniel Paiva Agustinho, Sina Majidian, Greg Autric, Maxime Hugues, Junkyoung Lee, Roland Faure, Kristen D. Curry, Jorge A. Moura de Sousa, Eduardo P. C. Rocha, David Koslicki, Paul Medvedev, Purav Gupta, Jessica Shen, Alejandro Morales-Tapia, Kate Sihuta, Peter J. Roy, Grant W. Brown, Robert C. Edgar, Anton Korobeynikov, Martin Steinegger, Caleb A. Lareau, Pierre Peterlongo, Artem Babaian
bioRxiv, Posted September 01, 2025.
引用
追記
ペタバイト規模の公共配列リポジトリへの効率的かつ正確な検索を行う MetaGraph
コメント
レポジトリに"Careful, this S3 bucket is huge. The total size of all contigs is 315 terabytes compressed. It contains 26.7M files. Just listing the folder will take half an hour."となっていて、中々とんでもないことになってますね。もちろんユーザーがダウンロードして利用は想定していなくて、S3 バケットの生ファイルなどはバックエンドで検索して必要な部分だけ取り出すことになるわけでしょうが、2670万ファイルというのは狂気だと思います。
その一方で、50PBというのは惑星全体の生命の遺伝情報を遍く表現するには桁が全く足りないかもしれない、今後も継続して努力は必要ではないだろうかとも感じます。
