contamination
最近の次世代シークエンシング技術により低コストで提供される超高スループットは、特に非モデル生物の全ゲノムシークエンシングプロジェクトの急速な成長を引き起こした[ref.1、2]。広域分類群のための大規模ゲノムプロジェクト、例えば脊椎動物種のためのG…
2019 4/21 タイトル追加 2019 4/21 オーサーのJose Manuel Martíさんのコメント追加 2019 4/23 タイトル修正 2019 4/26 誤字修正 2019 dockerリンク追記 219 5/9 パラメータ追記 20206/13 ツイート追記 2020 6/14 condaインストール追記 メタゲノミクスによ…
2019 11/5 論文追加 シーケンシング技術がスループットを高めそしてコストを下げ続けるにつれて、シーケンシングされたゲノムのデータベース(例えばNCBI RefSeq [ref.1])は指数関数的成長を続け、それらに対する検索をさらに複雑にしている[ref.2、3]。さ…
2019 1/17 エラー修正 2024/02/14 追記 メタゲノミクス分類手法は、データセット内の各リードに taxonomic identityをアサインすることを試みる。メタゲノミクスデータにはしばしば何千万ものリードが含まれているため、分類は、通常、長さk(k-mers)の短い…
ConFindrはバクテリア種間およびバクテリア種内のNGSデータの汚染を検出できるパイプライン。かなり良い感受性で実行でき、 2つのサンプルを混ぜ合わせ、それらの間にわずか500のSNP(> 99.9%同一!)がある場合でも同定することができる。これにより、NGS…
支配的なsynthesis technology によるシーケンシングは、固定リード長の(50-300bp)の高精度(エラー率<1%)なシーケンシングとして特徴付けられる(Goodwin et al、2016)。対照的に、Oxford Nanopore Technologies(ONT)およびPacific Biosciencesのロ…
2018 12/3 図差し替え 2019 6/18 condaインストール追記 2019 6/21 コマンド追記 2019 10/23引用追記 2020 1/7 インストール追記 2020 12/9 my docker imageのラン手順修正 RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC…
ハイスループットショットガンシーケンシングは、未知の微生物群集を研究する強力な方法を提供する(Eloe-Fadrosh et al、2016)。メタゲノミクスショットガンシーケンシングからゲノムビニングと呼ばれるプロセスによって完全または部分的な微生物ゲノムを…
DNAシーケンシング解析では、通常、リードはただ1つのリファレンスゲノムにマッピングされる。 しかしながら、起源となるゲノムの確認を必要とする場合、複数のゲノムに対するマッピングが必要である。 複数のゲノムに対するマッピングは、汚染を検出するた…
シーケンシングコストが低下するにつれて、バクテリアゲノムの配列が増加している。現在、NCBI(Benson et al、2009; Sayers et al、2009)、SEEDデータベース(Overbeek、Disz&Stevens、2004)には約15,000種類の原核生物ゲノムがあり、約75,000種類のアセ…
病原性細菌の薬剤耐性(Antimicrobial resistance: AMR)は、世界中の公衆衛生上の脅威となっている。最も重要なのは、近年数が増えている多剤耐性(MDR)菌である(論文より ref.1)。これらの病原体の周知の例には、メチシリン耐性黄色ブドウ球菌(MRSA)…
特に、シーケンススループットの高いプロジェクトや施設(Koboldt et al。、2010)においては、ミスラベルやミックスアップはよくある問題である 。次世代シーケンシング(NGS)データを扱う場合、誤ったラベルのサンプルは誤ったデータ処理と分析につながり…
最近の技術的進歩によりハイスループット配列決定シーケンス解析が可能になり、難培養微生物のsingle amplified genomes(SAG; Rinke et al。、2013 ; Swan et al。、2013 )やメタゲノムのアセンブリおよびbinningが可能になった(GMGs; Cuvelierら、2010 ;…
微生物集団のゲノム解析であるMetagenomicsは、環境と人体の微生物群集のプロファイリングを、これまでにない深みと幅で可能にする。その急速に拡大している用途は、自然環境や人工環境における微生物多様性の理解に革命をもたらしており、微生物の地域プロ…
ほとんどの環境微生物が難培養性であることを考えると、microbial ecologyの分野では、metagenomicsは全コミュニティの機能を調べる手段に由来していた(論文より Handelsman、2004; Kunin et al、2008; Teeling and Glockner、2012)。研究者は、微生物群全…
核酸試料間の汚染は、分子生物学における潜在的な問題として長く認識されてきた。ポリメラーゼ連鎖反応(PCR)による増幅や、そして最近ではハイスループット配列決定でのPCR増幅は、ソースにかかわらず、また非常に低レベルの混入した核酸でさえ、十分な範…
2022/02/08 インストール追記 次世代シークエンシング技術は、より安価になり、ルーティンの分析に役立っている。アセンブリの前に未処理のリードから特定のシーケンスを抽出または削除することを必要とする多くのタスクがある。抽出された領域特異的なリー…
シングルセルシーケンスの主な課題は、コンタミの可能性とその検出である[論文よりref.7]。標的ゲノムに属さない外来DNAは、複数の方法で試料に導入され得る。コンタミの原因には、全ゲノム増幅試薬が含まれる可能性すらあり得る[ref.8、9]。これらの障害を…
2020 2/5 condaインストール追記 2020 6/16 コマンドが大きく変更したため更新(v2.1) 2020 12/9 unmapを出力するようにコマンドを修正, 再びhelp更新(v4.2) 次世代シーケンシング(NGS)技術を生物群集から直接抽出したRNAに適用すると、コーディン…
化石のようなサンプル(リンク)や昔の人の骨、歯から断片化したDNAを抽出してシーケンスシーケンスすることが増えており、それに伴ってアダプターに5'と3'両側が汚染されたシーケンスデータが増えてきている。AdapterRemoval は柔軟なパラメータセットを持…
シーケンスされる長さより短いライブラリサイズのシーケンスを行うと、3'側にアダプタやバーコードが出現する。このような汚染配列があると、後の解析に悪影響を与える可能性があるため、クオリティチェックの時に除くのが望ましい。AlienTrimmerはユーザが…
2019 9/11 インストール追記 KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピン…
VIPはメタゲノムデータからホスト由来のコンタミリードを除き、virus由来のリードをアセンブルしてviursを分類・検出するパイプライン。クオリティトリミングからvirusのデータベースにリードをアライメントして照合することまで自動化されており、シンプル…
2020 4/1 9 インストール手順とhelp追記、タイトル修正 2021 6/11 link修正 2022/07/02 インストール手順修正 バクテリアのメタゲノム解析では、度々ホストゲノムのコンタミリードがシーケンスされてしまうことがある。KneadDataはそのようなホスト由来のリ…
2018 10/7 文章訂正、10/12 dockerコンテナを使ったランの流れ追加 2019 4/11 dockerを使ったランで表も保存するよう修正、/16 インストール追記、11/28 インストール追記、データベース作成の流れを修正、12/6 バージョンアップ追記 2021 1/15 バージョンア…
2019 1/16 テストラン追加、diamondデータベースbuidコマンドエラー修正 2019 1/19 diamondデータベースbuidコマンド修正 2019 1/21 追記 2019 6/22 インストール追記 2020 7/29 シミュレーション追記 2020 9/29 追記 2021 9/1 ビルドコマンド修正( リンク修…
20196/13 タイトル修正 2020 7/24 bbdukコマンド追記 の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンド。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - ア…
2019 5/14 helpとパラメータ追記 "digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングター…