レポジトリより
Arcadia-Science/seqqcは、シーケンシングデータの品質管理のための解析パイプラインである。このパイプラインは、ショートリードまたはロングリードのシーケンスデータ(FASTQフォーマット)に使用でき、アダプターの存在、高いシーケンス重複率、ミスラベルサンプル、汚染などの一般的な問題を特定することができる。
- 生リードのQC(FastQC)
- コンタミネーション検出(サワーマッシュ)
- サンプル配列類似度(sourmash)
- 統合レポート(MultiQC)
インストール
依存
- Nextflow (>=22.10.1)
nextflow pull Arcadia-Science/seqqc
テストラン
ここではプロファイルにdockerを指定する。出力ディレクトリも指定する必要がある。
nextflow run Arcadia-Science/seqqc -profile test,conda --outdir outdir
現在のリリースでは、パイプラインがdockerプロファイルで実行された場合のみ、sourmashの結果がMultiQCレポートに統合される。
出力
実際に使うにはfastqの名前とパスを書いたサンプルシートを指定する必要があります。サンプルシートについてはこちらに例が載っています。
https://github.com/Arcadia-Science/test-datasets/blob/main/seqqc/README.md
引用