macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

contamination

(スモールゲノム)汚染されたシークエンシングデータをフィルタリングしながらアセンブリする半自動化されたパイプライン WGA-LP

DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行す…

MAGとSAGのゲノム品質を評価する MDMcleaner 

2022/05/21 ツイート追記 現在、環境微生物の大部分は未培養のままであり、「微生物ダークマター」(MDM)と呼ばれている。そのため、これらの微生物に関するゲノム解析は、シングルセルオミクスやメタゲノム解析などの培養に依存しないアプローチに限定され…

fastqから正確に汚染を除去する CONSULT

多くのバイオインフォマティクスのアプリケーションには基本的な疑問がある。あるシーケンスリードは、ある広範な分類群のゲノムからなる大規模なデータセットに属しているのか、たとえそのセットの中で最も近いマッチがクエリから進化的に乖離しているのか…

複数のリファレンスに同時にマッピングしてリードを分ける BBSplit

SEQanswersより。一部改変(リンク) BBSplitは、BBMapを用いて、複数のリファレンスに同時にマッピングすることで、リードをビン分け(binning)します。リードは、最もよくマップされるリファレンスのビンに分けて書き出されます。また、曖昧さ回避のオプ…

(SARS-CoV-2) シーケンシングリードの迅速なデコンタミネーションを行う ReadItAndKeep

臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを…

ATAC-Seq、ChIP-Seq、WESなどのcDNA汚染の検出と除去を行う cDNA-detector

意図的または偶然に実験システムに導入された外因性cDNAは、そのシステムから得られた次世代シーケンサーライブラリーにおいて、その遺伝子に対するリードカバレッジの追加として現れることがある。適切に認識・管理されない場合、この外来シグナルによるク…

メタゲノムコンティグの分類を行うユーザーフレンドリーなツール SprayNPray

培養した微生物のisolatesや真核生物の個体のショットガンシーケンス(全ゲノムシーケンス)や微生物群集のショットガンシーケンス(メタゲノミクス)は、生物学において一般的になってきている。シークエンスされたサンプルには、複数の生物種が含まれてい…

BUSCO v5

2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新 ゲノムデータやメタゲノムデータの品質を評価する方法は、ゲノムアセンブリを助け、その後の解析結果を正しく解釈するために不可欠である。BUSCOは、ユニバーサル・シング…

Bowtie 2を使って素早くホスト由来のリードを除く

2021 4/16 タイトル変更、文章修正, 画像差し替え Bowtie 2の--un-concオプションを使うと、リファレンスに適切にマッピングされなかったペアエンドリード(discordant read pairs)を別出力できる。このオプションを利用することで、ホストゲノムのリードを…

データベースやゲノムアセンブリの汚染・キメラアセンブリ配列を調べる conterminator

2022/06/22 タイトル修正, インストール手順追記 公的・私的リポジトリのゲノム数は、少なくとも過去10年間で急増しており、その主な理由は、塩基配列決定にかかる費用が急速に低下したことにある。また、公開されているゲノムデータベースGenBankは、EMBLや…

汚染配列をスクリーニングする VecScreen

異物混入スクリーニングの目的は、人為的な理由または生物学的な理由で存在する可能性のある汚染配列を特定することである。人為的な理由としては、クローニング人工配列(ベクター、リンカー/アダプター/プライマー、大腸菌宿主DNA)、ヒトのDNA配列による…

原核生物のゲノムアセンブリでキメラや汚染を調べる GUNC

2021 1/18 解析例追加 2021 6/15 論文引用 2022/06/16 コマンド更新 ゲノムは原核生物の系統の遺伝的青写真であり、現在進行中の微生物世界のセンサスの中心にある微生物学の基本単位であり、微生物の生態と進化の研究に不可欠なものである。1995年に細菌の…

メタゲノムの機能的アノテーションを行う自動化されたパイプライン MetaLAFFA

2021 2/8 mambaインストール追記 微生物群集の機能的能力の解析は、マイクロバイオームに基づく研究の重要な要素となっており、腸内マイクロバイオームとうつ病[ref.22]、自閉症[ref.18]、2型糖尿病[ref.16]などの宿主の状態との間の関連性についての新たな…

(ヒトゲノム)ミトコンドリアハプロタイプを検出することでサンプルの汚染を検出する Haplocheck

ヒトのミトコンドリアDNA(mtDNA)は、長さ16.6kbの核外DNAである(Andrews et al). mtDNAは母系を介してのみ継承され、世界的にヒトの母系の系統と女性の(前)歴史的な人口動態パターンの再構築を容易にしている。mtDNAの厳密な母方遺伝は、ハプロタイプ…

メタゲノムのビニング後の解析を行う自動化されたパイプライン MetaSanity

2020 5/29 構成を修正、タイトル変更 2020 6/1 コマンド修正 2021 10/5 ツイート追記 マイクロバイオーム研究の重要性はますます一般的になっており、さまざまな生態系(例:海洋、構築、宿主関連など)を理解するために不可欠である。研究者は、微生物ゲノ…

メタゲノムアセンブリのウイルスゲノム品質を評価する CheckV

2020 5/9 誤字修正 2020 12/22 論文追加 ここ数年の間に、メタゲノミクスにより何百万もの新しいウイルス配列のアセンブルが可能になり、地球上のウイルスの多様性に関する知識が大幅に拡大した。しかし、これらの配列は小さな断片から完全なゲノムまで様々…

公開されている真核生物アセンブリを分析する BlobToolKit

2020 6/15 追記 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入し…

(ヒトゲノム)個人のサンプルが汚染または交換されている可能性があるかどうかを調べる verifybamid

DNAサンプル汚染の検出と推定は、高品質の遺伝子型コールと信頼性の高いダウンストリーム分析を確保するための重要なステップである。既存の方法は、汚染率の正確な推定のために母集団対立遺伝子頻度情報に依存している。シーケンス解析の初期段階で各個体の…

VCFとPEDから予測される家系、性別、祖先関係を元にサンプルの潜在的な汚染を見積もる Peddy(ヒト向け)

ヒトDNAシーケンス研究では、多くの場合、複数の研究所や個人によるDNAサンプルと関連するマニフェストの取り扱いが含まれる。 WESとWGSの両方のプロトコルには、シーケンス前の複数のDNA操作が含まれる。新しい手順や処理はそれぞれ、サンプルの混同、汚染…

アセンブリ過程でロングリードをフィルタリングする fpa

2020 4/23 論文追記 以前、ロングリードのアセンブリ前処理ツール yacrdを紹介した。 今回はアセンブリ過程でフィルタリングして出力を調節するfpaを紹介する。 以下のフィルタリングが行える (Githubより)。 internal match containment dovetails self mat…

illuminaと454の前処理ツール seqyclean

最新のハイスループットシーケンス機器は大量のデータを生するが、これにはシーケンスエラー、シーケンスアダプタ、汚染されたリードなどのノイズが含まれていることがよくある。このノイズはゲノミクス研究を複雑にする。シーケンスノイズを減らすために多…

アセンブリ配列の16S rRNA相同性からシーケンシングデータの汚染を素早く見積もる ContEst16S

近年、次世代シークエンシング(NGS)と呼ばれる新しいDNAシークエンシング技術の開発により、ゲノムシークエンシングのコストと時間が劇的に減少した。現在、publicデータベースの原核生物ゲノム配列数は約7万に達している(論文執筆時点)。大規模ゲノムデ…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

ショートシーケンシングリードとアセンブリの評価ツール SQUAT

最近の次世代シークエンシング技術により低コストで提供される超高スループットは、特に非モデル生物の全ゲノムシークエンシングプロジェクトの急速な成長を引き起こした[ref.1、2]。広域分類群のための大規模ゲノムプロジェクト、例えば脊椎動物種のためのG…

メタゲノムのコンタミ除去やメタゲノムのサンプル間比較を行って結果を視覚化する Recentrifuge

2019 4/21 タイトル追加 2019 4/21 オーサーのJose Manuel Martíさんのコメント追加 2019 4/23 タイトル修正 2019 4/26 誤字修正 2019 dockerリンク追記 219 5/9 パラメータ追記 20206/13 ツイート追記 2020 6/14 condaインストール追記 メタゲノミクスによ…

サンプルのコンタミネーションを見積もる Mash Screen

2019 11/5 論文追加 シーケンシング技術がスループットを高めそしてコストを下げ続けるにつれて、シーケンシングされたゲノムのデータベース(例えばNCBI RefSeq [ref.1])は指数関数的成長を続け、それらに対する検索をさらに複雑にしている[ref.2、3]。さ…

KrakenUniq

2019 1/17 エラー修正 メタゲノミクス分類手法は、データセット内の各リードに taxonomic identityをアサインすることを試みる。メタゲノミクスデータにはしばしば何千万ものリードが含まれているため、分類は、通常、長さk(k-mers)の短いワードの正確な一…

バクテリアシーケンシングデータの種間、種内汚染を検出する ConFindr

ConFindrはバクテリア種間およびバクテリア種内のNGSデータの汚染を検出できるパイプライン。かなり良い感受性で実行でき、 2つのサンプルを混ぜ合わせ、それらの間にわずか500のSNP(> 99.9%同一!)がある場合でも同定することができる。これにより、NGS…

lambda phageコントロールをONTなどのfastqから除く NanoLyse

支配的なsynthesis technology によるシーケンシングは、固定リード長の(50-300bp)の高精度(エラー率<1%)なシーケンシングとして特徴付けられる(Goodwin et al、2016)。対照的に、Oxford Nanopore Technologies(ONT)およびPacific Biosciencesのロ…

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

2018 12/3 図差し替え 2019 6/18 condaインストール追記 2019 6/21 コマンド追記 2019 10/23引用追記 2020 1/7 インストール追記 2020 12/9 my docker imageのラン手順修正 RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC…