macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

contamination

メタゲノムアセンブリ結果を可視化してマニュアルビニングを助ける gbtools

ほとんどの環境微生物が難培養性であることを考えると、microbial ecologyの分野では、metagenomicsは全コミュニティの機能を調べる手段に由来していた(論文より Handelsman、2004; Kunin et al、2008; Teeling and Glockner、2012)。研究者は、微生物群全…

RNA-seqのクロスコンタミを検出する Croco

核酸試料間の汚染は、分子生物学における潜在的な問題として長く認識されてきた。ポリメラーゼ連鎖反応(PCR)による増幅や、そして最近ではハイスループット配列決定でのPCR増幅は、ソースにかかわらず、また非常に低レベルの混入した核酸でさえ、十分な範…

k-merを使ったリードフィルタリングを行う Cookiecutter

次世代シークエンシング技術は、より安価になり、ルーティンの分析に役立っている。アセンブリの前に未処理のリードから特定のシーケンスを抽出または削除することを必要とする多くのタスクがある。抽出された領域特異的なリード(例えば、mtDNAまたはrRNAか…

   シングルセルの汚染を検出する ACDC

シングルセルシーケンスの主な課題は、コンタミの可能性とその検出である[論文よりref.7]。標的ゲノムに属さない外来DNAは、複数の方法で試料に導入され得る。コンタミの原因には、全ゲノム増幅試薬が含まれる可能性すらあり得る[ref.8、9]。これらの障害を…

rRNAのコンタミを除く SortMeRNA

SortMeRNAはメタトランスクリプトームやメタゲノムのシーケンスデータからrRNAを高感度に検出し、フィルタリングするツール。出力はfasta、fastq、アライメントのsam、またblastライクな出力も可能である。Illumina, 454, Ion Torrent and PacBioのシーケン…

バーコードやアダプターをトリミングする AdapterRemoval v2

化石のようなサンプル(リンク)や昔の人の骨、歯から断片化したDNAを抽出してシーケンスシーケンスすることが増えており、それに伴ってアダプターに5'と3'両側が汚染されたシーケンスデータが増えてきている。AdapterRemoval は柔軟なパラメータセットを持…

アダプターやプライマーのコンタミを除く AlienTrimmer

シーケンスされる長さより短いライブラリサイズのシーケンスを行うと、3'側にアダプタやバーコードが出現する。このような汚染配列があると、後の解析に悪影響を与える可能性があるため、クオリティチェックの時に除くのが望ましい。AlienTrimmerはユーザが…

高速なk-merカウントツール KMC

KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピング読み書き)(注1)。 インス…

メタゲノムデータからvirusゲノムを検出するVIP

VIPはメタゲノムデータからホスト由来のコンタミリードを除き、virus由来のリードをアセンブルしてviursを分類・検出するパイプライン。クオリティトリミングからvirusのデータベースにリードをアライメントして照合することまで自動化されており、シンプル…

メタゲノムデータからホストゲノムなどのコンタミを除く作業を自動化するラッパーツール KneadData

バクテリアのメタゲノム解析では、度々ホストゲノムのコンタミリードがシーケンスされてしまうことがある。KneadDataはそのようなホスト由来のリードや低クオリティのリードをフィルタリングするために設計されたツールである。 Trimmomaticでのクオリティト…

メタゲノムからビニングしたゲノムが完全か、またコンタミがあるか評価する CheckM

ドラフトゲノムからゲノムの完全さを正確に見積もるには、ゲノムの完全さと汚染の度合いの正確な推定が必要となる。そのための方法として、一般にすべての細菌または古細菌ゲノムにわたって保存されたマーカー遺伝子を利用することができる。CheckMは、参照…

BlobToolsでcontigのカバレッジ、GC、taxonomy情報をグラフ化する。

アセンブリしたcontig中に、アセンブリツールのアーティファクトやコンタミ由来のcontigが混じることは頻繁に起きる。そのため、アセンブリのクオリティチェックの一つにターゲットとなる生物以外の配列がどれほど混じっているか見積もることが重要になる。B…

多機能なNGSの管理ツール BBtools 其の2

の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンドである。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - アセンブリの基本情報をレポートする。 BBDuk - ク…

diginormによるシーケンスデータの軽量化

"digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングターゲットは、低/高のk-merカバレッ…