ゲノムシーケンスデータの低価格化と入手の容易化に伴い、de novoゲノムアセンブリは、様々な下流の研究や解析への重要な第一歩となっている。そのため、計算効率の高い方法で高品質のゲノムアセンブリを作成できるバイオインフォマティクスツールが不可欠である。ntLinkは、ロングリードを含むあらゆるシーケンス技術から構築されたドラフトゲノムアセンブリを改良するために、ロングリードのシーケンスデータを利用する、柔軟でリソース効率の高いゲノム・スキャフォールディングツールである。ntLinkは、リードアラインメントを使用して結合候補を特定する代わりに、最小化子ベースのマッピングを利用して、入力配列がどのように順序付けられ、スキャフォールドに方向付けられるべきかを推論する。最近のntLinkの改良により、オーバーラップ検出、ギャップ充填、コード内スキャフォールディング反復などの重要な機能が追加された。ここでは、ntLinkの実証された計算効率を維持しながら、これらの新機能のそれぞれをどのように使えば、高度に連続したゲノムアセンブリが得られるかを示す3つの基本プロトコルを紹介する。さらに、代替プロトコルで説明するように、ntLinkスキャフォールディングを可能にする軽量なミニマイザーベースのマッピングは、ミスアセンブリ検出などの他の下流アプリケーションにも利用できる。そのモジュール性と複数の実行モードにより、ntLinkはゲノムのスキャフォールディングからそれ以外の分野まで、ゲノミクスコミュニティに広く恩恵をもたらす。ntLinkはオープンソースプロジェクトであり、https://github.com/bcgsc/ntLink から自由に入手できる。
レポジトリより
ntLinkは、入力ターゲットアセンブリと供給されたロングリードの間のマッピングを実行するためにミニマイザーを使用する。ロングリードのマッピングは、出力されるスキャフォールドを方向付け、順序付けるための証拠として使用される。
アルゴリズムの一般的なステップ
- 入力ターゲットアセンブリとロングリードの順序付きミニマイザースケッチを計算する。
- ミニマイザーを用いて、ロングリードをターゲットアセンブリのコンティグにマッピングする。
- ロングリードのマッピング結果から結合が示唆されるコンティグペアを見つける。
- スキャフォールドグラフを出力する。ここで、ノードはコンティグ、エッジはロングリードデータから示唆された結合である。
- abyss-scaffoldを使ってスキャフォールドグラフをトラバースし、最終的なスキャフォールドを出力する。
インストール
依存
- Python 3.7+ (Numpy, Python-igraph)
- btllib 1.4.10 or lower
- ABySS v2.3.0+
- GCC 6+ or Clang 5+ with OpenMP
- zlib
#conda
mamba install -c bioconda -c conda-forge ntlink
#homebrew
brew install brewsci/bio/ntlink
> ntLink
$ ntLink
ntLink: Scaffolding assemblies using long reads
ntLink v1.3.9
Usage: ntLink scaffold target=<target scaffolds> reads='List of long read files'
To additionally run gap-filling (fill gap regions with raw read sequence):
Usage: ntLink scaffold gap_fill target=<target scaffolds> reads='List
of long read files'
Options:
target Target assembly to be scaffolded in fasta format
reads List of long read files (separated by a space)
prefix Prefix of intermediate output files [<target>.k<k>.w<w>.z<z>]
t Number of threads [4]
k K-mer size for minimizers [32]
w Window size for minimizers [100]
n Minimum graph edge weight [1]
g Minimum gap size (bp) [20]
f Maximum number of contigs in a run for full transitive
edge addition [10]
a Minimum number of anchored ONT reads required for an edge [1]
z Minimum size of contig (bp) to scaffold [1000]
v If 1, track time and memory for each step of the pipeline [0]
paf If True, outputs read to contig mappings in PAF-like
format [False]
overlap If True, runs extra step to attempt to identify and
trim overlapping joined sequences [True]
sensitive If True, runs mapping in sensitive mode [False]
soft_mask If True, gaps are filled with lowercase bases [False]
Note:
- Ensure all assembly and read files are in the current working
directory, making soft links if necessary
テストラン
#test run
cd tests
./test_installation.sh
出力
expected_outputs/
実行方法
scaffoldingを行うには、アセンブルされたfastaファイルとロングリードを指定する。
ntLink scaffold target=my_assembly.fa reads=long_reads.fq.gz k=32 w=250
- t Number of threads [4]
- k K-mer size for minimizers [32]
- w Window size for minimizers [100]
- ntLink v1.2.0では、ntLinkはscaffoldingステージの後にギャップフィルを実行することもできる。このモードは、ntLinkコマンドにgap_fillターゲットを追加することで有効になる。gap_fill機能を使用する場合は、overlap=Trueが必要。
- ギャップは未加工のリード配列でfillされるので、その後は研磨することが推奨されている。
引用
ntLink: A Toolkit for De Novo Genome Assembly Scaffolding and Mapping Using Long Reads
Lauren Coombe, René L. Warren, Johnathan Wong, Vladimir Nikolic, Inanc Birol
currentprotocols, First published: 11 April 2023
関連