macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

リファレンスアセンブリにアライメントした後のリードの品質を評価する best

 

高精度なシーケンシング技術を開発するためには、プラットフォーム依存のシーケンシングエラーを理解する必要がある。bestは、高品質のリファレンスアセンブリにアライメントされたリードを取り込み、リードごとのメトリクス、サマリー統計、ゲノム区間ごとの層別メトリクスを生成する。bestは従来の手法と比較して16倍高速であることを示す。bestは、シーケンスプラットフォームの精度を向上させる開発支援に有用であることに加え、ライブラリ調製やエラー補正方法など、他の実験的要因の評価・改善にも応用できる。bestは、MITライセンスのもと、Github (github.com/google/best) で公開されているオープンソースコマンドラインユーティリティである。

 

特徴(Githubより)

  • 全体およびアラインメントごとの統計情報を収集
  • indelの長さの分布
  • 異なる経験的 Q 値のしきい値における収量
  • 特定のタイプのリードのエラー分布を簡単に調べるためのリードごとのビン統計情報
  • インターバルで指定された領域(BEDファイル、ホモポリマー領域、ウィンドウなど)に対する統計値
  • 品質スコアと経験的Q値に関する統計情報
  • マルチスレッドによる高速化

 

インストール

Github

https://github.com/google/best

git clone https://github.com/google/best.git
cd best/
cargo build --release

> target/release/best -h

$ target/release/best -h

best 0.1.0

Daniel Liu, Daniel E. Cook

Bam Error Stats Tool (best): analysis of error types in aligned reads.

 

USAGE:

    best [OPTIONS] <INPUT> <REFERENCE> <STATS_PREFIX>

 

ARGS:

    <INPUT>           Input BAM file

    <REFERENCE>       Input reference FASTA file. Can be gzipped

    <STATS_PREFIX>    Prefix for output files that contain statistics

 

OPTIONS:

    -b, --bin-types <BIN_TYPES>...

            Types of bins to use for per alignment stats

 

    -h, --help

            Print help information

 

        --intervals-bed <INTERVALS_BED>...

            Use intervals from a BED file

 

        --intervals-border <INTERVALS_BORDER>...

            Use fixed-width window border regions as intervals

 

        --intervals-hp

            Use homopolymer regions as intervals

 

        --intervals-match <INTERVALS_MATCH>...

            Use regions that match any of the specified subsequences as intervals

 

        --intervals-window <INTERVALS_WINDOW>...

            Use fixed-width windows as intervals

 

        --intervals-window-pos <INTERVALS_WINDOW_POS>...

            Use fixed-width windows with positions as intervals

 

    -n, --name-column <NAME_COLUMN>

            Add column with a specific name in CSV outputs

 

        --no-per-aln-stats

            Turn off outputting per alignment stats

 

    -t, --threads <THREADS>

            Number of threads. Will be automatically determined if this is set to 0 [default: 0]

 

    -V, --version

            Print version information

 

 

実行方法

target/release/best input.bam reference.fasta output

output.summary_yield_stats.csv

作成中

 

引用

Best: A Tool for Characterizing Sequencing Errors

Daniel Liu, Anastasiya Belyaeva,  Kishwar Shafin,  Pi-Chuan Chang,  Andrew Carroll,  Daniel E. Cook

bioRxiv,Posted December 23, 2022