macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

contamination

高い特異性と感度で外来配列を除去する ContScout

ゲノムのコンタミネーションは、比較進化ゲノミクスからメタゲノミクスに至るまで、様々なダウンストリームアプリケーションに影響を及ぼす問題として、ますます認識されるようになってきている。ここでは、ContScoutを紹介する。ContScoutは、アノテーショ…

宿主汚染を正確に除去する Hostile

2023/12/22 論文引用 臨床サンプルから作成された微生物配列は、倫理的および法的な理由から除去しなければならないヒト宿主配列で汚染されていることが多い。バリアントコーリングやde novoアセンブリなどの下流解析に不利になるような標的微生物配列を不用…

汚染シークエンシングリードを簡単に除外する GenomeFLTR

過去10年間、シーケンス技術の進歩により、ゲノムデータは飛躍的に増加した。これらの新しいデータは、遺伝子やゲノムの進化や機能に関する我々の理解を劇的に変化させてきた。シーケンサー技術の向上にもかかわらず、汚染されたリードを特定することは、多…

(主にヒトRNA-seq)大規模RNA-seqデータセットからデータセットに関する情報を提供する Kmerator Suite

一般に公開されている膨大な数のRNA-sequencing (RNA-seq) ライブラリは、組織における既知または新規の転写産物の発現を定量化するための機能情報の宝庫である。しかし、転写産物の定量は、多くの計算資源と処理時間を必要とするアライメント手法に依存する…

シークエンシングデータのクオリティコントロールを行う seqqc

レポジトリより Arcadia-Science/seqqcは、シーケンシングデータの品質管理のための解析パイプラインである。このパイプラインは、ショートリードまたはロングリードのシーケンスデータ(FASTQフォーマット)に使用でき、アダプターの存在、高いシーケンス重…

宿主ゲノムにマッピングして宿主と汚染菌のロングリードを分けることができるか試す

2023/03/12 誤字修正 ロングリードを使ったゲノムプロジェクトが爆発的に増えており、現在ではほとんどのゲノム解読プロジェクトでロングリードのシークエンスが主要に使用されています。ロングリードのゲノムプロジェクト増加に伴って、想定しない汚染生物…

教師なしクラスタリングによりロングリードのホストとコンタミ配列を分離するリファレンスフリー法 Symbiont-Screener

2023/03/10 追記 メタゲノムシークエンシングは、培養を必要としない複雑な微生物コミュニティの大規模な構成の解析と機能的特徴付けを容易にする。最近のロングリードシーケンス技術の進歩は、長距離情報を利用して、repeat-awareなメタゲノムアセンブリパ…

機械学習を用いた微生物ゲノム品質の迅速で正確かつスケール可能な評価ツール CheckM2

2023/07/28 論文引用 2024/04/16 インストール追記 DNA シーケンスとバイオインフォマティクスの進歩により、メタゲノム解析データからの微生物ゲノムの回収率は飛躍的に向上した。メタゲノム解析で得られたゲノムの品質を評価することは、解析に先立つ重要…

(スモールゲノム)汚染されたシークエンシングデータをフィルタリングしながらアセンブリする半自動化されたパイプライン WGA-LP

DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行す…

MAGとSAGのゲノム品質を評価する MDMcleaner 

2022/05/21 ツイート追記 現在、環境微生物の大部分は未培養のままであり、「微生物ダークマター」(MDM)と呼ばれている。そのため、これらの微生物に関するゲノム解析は、シングルセルオミクスやメタゲノム解析などの培養に依存しないアプローチに限定され…

fastqから正確に汚染を除去する CONSULT

多くのバイオインフォマティクスのアプリケーションには基本的な疑問がある。あるシーケンスリードは、ある広範な分類群のゲノムからなる大規模なデータセットに属しているのか、たとえそのセットの中で最も近いマッチがクエリから進化的に乖離しているのか…

複数のリファレンスに同時にマッピングしてリードを分ける BBSplit

SEQanswersより。一部改変(リンク) BBSplitは、BBMapを用いて、複数のリファレンスに同時にマッピングすることで、リードをビン分け(binning)します。リードは、最もよくマップされるリファレンスのビンに分けて書き出されます。また、曖昧さ回避のオプ…

(SARS-CoV-2) シーケンシングリードの迅速なデコンタミネーションを行う ReadItAndKeep

臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを…

ATAC-Seq、ChIP-Seq、WESなどのcDNA汚染の検出と除去を行う cDNA-detector

意図的または偶然に実験システムに導入された外因性cDNAは、そのシステムから得られた次世代シーケンサーライブラリーにおいて、その遺伝子に対するリードカバレッジの追加として現れることがある。適切に認識・管理されない場合、この外来シグナルによるク…

メタゲノムコンティグの分類を行うユーザーフレンドリーなツール SprayNPray

培養した微生物のisolatesや真核生物の個体のショットガンシーケンス(全ゲノムシーケンス)や微生物群集のショットガンシーケンス(メタゲノミクス)は、生物学において一般的になってきている。シークエンスされたサンプルには、複数の生物種が含まれてい…

BUSCO v5

2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新, 7/3 追記, 7/20 追記 2024/03/07 追記, 3/16 BUSCOv5.7.0について追記、06/10 誤字修正 ゲノムデータやメタゲノムデータの品質を評価する方法は、ゲノムアセンブリを助け…

Bowtie 2を使って素早くホスト由来のリードを除く

2021 4/16 タイトル変更、文章修正, 画像差し替え 2022/07/01、09/07 追記 2023/10/17 追記 Bowtie 2の--un-concオプションを使うと、リファレンスに適切にマッピングされなかったペアエンドリード(discordant read pairs)を別出力できる。このオプション…

データベースやゲノムアセンブリの汚染・キメラアセンブリ配列を調べる conterminator

2022/06/22 タイトル修正, インストール手順追記 公的・私的リポジトリのゲノム数は、少なくとも過去10年間で急増しており、その主な理由は、塩基配列決定にかかる費用が急速に低下したことにある。また、公開されているゲノムデータベースGenBankは、EMBLや…

汚染配列をスクリーニングする VecScreen

異物混入スクリーニングの目的は、人為的な理由または生物学的な理由で存在する可能性のある汚染配列を特定することである。人為的な理由としては、クローニング人工配列(ベクター、リンカー/アダプター/プライマー、大腸菌宿主DNA)、ヒトのDNA配列による…

原核生物のゲノムアセンブリでキメラや汚染を評価する GUNC

2021 1/18 解析例追加、6/15 論文引用 2022/06/16 コマンド更新、10/13 追記 2024/05/08 追記 ゲノムは原核生物の系統の遺伝的青写真であり、現在進行中の微生物世界のセンサスの中心にある微生物学の基本単位であり、微生物の生態と進化の研究に不可欠なも…

メタゲノムの機能的アノテーションを行う自動化されたパイプライン MetaLAFFA

2021 2/8 mambaインストール追記 微生物群集の機能的能力の解析は、マイクロバイオームに基づく研究の重要な要素となっており、腸内マイクロバイオームとうつ病[ref.22]、自閉症[ref.18]、2型糖尿病[ref.16]などの宿主の状態との間の関連性についての新たな…

(ヒトゲノム)ミトコンドリアハプロタイプを検出することでサンプルの汚染を検出する Haplocheck

ヒトのミトコンドリアDNA(mtDNA)は、長さ16.6kbの核外DNAである(Andrews et al). mtDNAは母系を介してのみ継承され、世界的にヒトの母系の系統と女性の(前)歴史的な人口動態パターンの再構築を容易にしている。mtDNAの厳密な母方遺伝は、ハプロタイプ…

メタゲノムのビニング後の解析を行う自動化されたパイプライン MetaSanity

2020 5/29 構成を修正、タイトル変更 2020 6/1 コマンド修正 2021 10/5 ツイート追記 マイクロバイオーム研究の重要性はますます一般的になっており、さまざまな生態系(例:海洋、構築、宿主関連など)を理解するために不可欠である。研究者は、微生物ゲノ…

メタゲノムアセンブリのウイルスゲノム品質を評価する CheckV

2020 5/9 誤字修正 2020 12/22 論文追加 ここ数年の間に、メタゲノミクスにより何百万もの新しいウイルス配列のアセンブルが可能になり、地球上のウイルスの多様性に関する知識が大幅に拡大した。しかし、これらの配列は小さな断片から完全なゲノムまで様々…

公開されている真核生物アセンブリを分析する BlobToolKit

2020 6/15 追記 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入し…

(ヒトゲノム)個人のサンプルが汚染または交換されている可能性があるかどうかを調べる verifybamid

DNAサンプル汚染の検出と推定は、高品質の遺伝子型コールと信頼性の高いダウンストリーム分析を確保するための重要なステップである。既存の方法は、汚染率の正確な推定のために母集団対立遺伝子頻度情報に依存している。シーケンス解析の初期段階で各個体の…

VCFとPEDから予測される家系、性別、祖先関係を元にサンプルの潜在的な汚染を見積もる Peddy(ヒト向け)

ヒトDNAシーケンス研究では、多くの場合、複数の研究所や個人によるDNAサンプルと関連するマニフェストの取り扱いが含まれる。 WESとWGSの両方のプロトコルには、シーケンス前の複数のDNA操作が含まれる。新しい手順や処理はそれぞれ、サンプルの混同、汚染…

アセンブリ過程でロングリードをフィルタリングする fpa

2020 4/23 論文追記 以前、ロングリードのアセンブリ前処理ツール yacrdを紹介した。 今回はアセンブリ過程でフィルタリングして出力を調節するfpaを紹介する。 以下のフィルタリングが行える (Githubより)。 internal match containment dovetails self mat…

illuminaと454の前処理ツール seqyclean

最新のハイスループットシーケンス機器は大量のデータを生するが、これにはシーケンスエラー、シーケンスアダプタ、汚染されたリードなどのノイズが含まれていることがよくある。このノイズはゲノミクス研究を複雑にする。シーケンスノイズを減らすために多…

アセンブリ配列の16S rRNA相同性からシーケンシングデータの汚染を素早く見積もる ContEst16S

近年、次世代シークエンシング(NGS)と呼ばれる新しいDNAシークエンシング技術の開発により、ゲノムシークエンシングのコストと時間が劇的に減少した。現在、publicデータベースの原核生物ゲノム配列数は約7万に達している(論文執筆時点)。大規模ゲノムデ…