macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

シークエンシングデータのクオリティコントロールを行う seqqc

 

レポジトリより

Arcadia-Science/seqqcは、シーケンシングデータの品質管理のための解析パイプラインである。このパイプラインは、ショートリードまたはロングリードのシーケンスデータ(FASTQフォーマット)に使用でき、アダプターの存在、高いシーケンス重複率、ミスラベルサンプル、汚染などの一般的な問題を特定することができる。

 

  1. 生リードのQC(FastQC)
  2. コンタミネーション検出(サワーマッシュ)
  3. サンプル配列類似度(sourmash)
  4. 統合レポート(MultiQC)

 

インストール

依存

  • Nextflow (>=22.10.1)

Github

nextflow pull Arcadia-Science/seqqc

 

 

テストラン

ここではプロファイルにdockerを指定する。出力ディレクトリも指定する必要がある。

nextflow run Arcadia-Science/seqqc -profile test,conda --outdir outdir

現在のリリースでは、パイプラインがdockerプロファイルで実行された場合のみ、sourmashの結果がMultiQCレポートに統合される。

 

出力

 

実際に使うにはfastqの名前とパスを書いたサンプルシートを指定する必要があります。サンプルシートについてはこちらに例が載っています。

https://github.com/Arcadia-Science/test-datasets/blob/main/seqqc/README.md

 

引用

GitHub - Arcadia-Science/seqqc: A Nextflow pipeline to identify quality control issues with new sequencing data.

DOI: 10.57844/arcadia-cxn6-ch62