macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018

PCR duplicationにタグをつけたりエラーを取り除く gencore

2018/12/22 タイトル修正 HIgh depthの次世代シークエンス(NGS)は、癌の精密な診断と治療に広く使用されている。このようなディープシーケンシングデータから、体細胞突然変異を検出して、パーソラナイズされた標的療法または免疫療法のガイドにすることが…

UMIタグつきraw シーケンシングリードをクラスタリングする calib

次世代シーケンシングにより、シーケンシングエラーの処理を含む多くの課題が発生する大規模なゲノムデータセットが利用可能になった。これは特にガンゲノミクスに関連する。循環腫瘍DNAからの低い対立遺伝子頻度変動を検出するために使用される。ユニークな…

リードや他のアセンブリから得られた情報を組み込んでゲノムアセンブリ精度を向上させる NucMerge

過去10年にわたるシーケンシング技術の大きな進歩にもかかわらず、第2世代シーケンシングリードを用いたゲノムアセンブリは依然として複雑な問題のままである。これは主に、ゲノムの構造の繰り返しと、大量のデータ、短いリード長及びフラグメント長、不均一…

lambda phageコントロールをONTなどのfastqから除く NanoLyse

支配的なsynthesis technology によるシーケンシングは、固定リード長の(50-300bp)の高精度(エラー率<1%)なシーケンシングとして特徴付けられる(Goodwin et al、2016)。対照的に、Oxford Nanopore Technologies(ONT)およびPacific Biosciencesのロ…

FASTQの圧縮/解凍を行う Spring

過去数年間に生産されたゲノムデータの量は、主に高スループットシーケンシング(HTS)技術の向上とゲノムのシーケンシングコストの削減によって大幅に増加した。ヒトに対する単一のゲノムシーケンシング実験は、典型的には数億のショートリード(長さ100〜1…

ロングリードのアセンブリツール Flye

2019 version2.4.1のヘルプに更新、論文追記、テストランのコマンドミス修正、リンク追加、コマンド修正、補足、リンク追加、You tube動画追加 2020 ツイート追加、help更新、例追記、コメント追記、ツイート追記 2021 5/8 動画リンク追加、6/16 subassembli…

アセンブリの構造的誤りが疑われる部位をコールする NucBreak

2020 3/3 論文引用 ゲノムシーケンシング技術全体の進歩により、近年ゲノム配列が決定された生物数が大幅に増加している。これは、広範な生物の比較ゲノム解析を行う機会を提供している。分析結果は、使用されたゲノムアセンブリの品質に大きく依存する。ア…

Linked readを使ってクロモソームスケールのアセンブリを行う ARKS

ARCSより 10×Genomics(10×G、Pleasanton、CA)のChromiumシークエンシングライブラリー調製プロトコルは、Illuminaシーケンシング(San Diego、CA)ベースで長いDNA断片上にショートリードとバーコード情報を提供しローカライズさせる。したがって、高スル…

Linked readsを使ってミスアセンブリを検出する tigmint

ショートリード・シーケンシング・データのアセンブリは、シーケンシング・ライブラリのフラグメント・サイズよりも大きいリピート配列によって容易に混乱させられる。リピートのサイズがライブラリのフラグメントサイズを超えると、コンティグは最善のケー…

アセンブリのグラフを可視化し、アセンブリの評価・分析を助ける SGTK

2018 11/27 誤字修正 Scaffoldingはすべてのゲノムアセンブリパイプラインの重要なステップである。scaffoldingにより、メイトペアライブラリやロングリードなどのさまざまなタイプのリンケージ情報を使用してコンティグをより長い配列にアラインできる。 こ…

バリアントコール結果を可視化して、素早くバリアントフィルタリングを行うVIPER

次世代シーケンシング(NGS)の開発により、ゲノムシーケンシングは多くの研究分野、特にがん研究に関連する分野(Shen et al。、2015)に適用可能となった。異なるスケールで変化を検出するため多くのツールが開発されている。例えば、GATK(McKenna et al…

非相同な領域をマスクしてアライメントの誤りを防ぐ PREQUAL

2018 12/02 mafftコマンドの誤り修正 系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化で…

アセンブリ配列を使って全ゲノムMLST (wgMLST) を行い、アレルプロファイルから系統を比較・再構成する fast-GeP

2018 11/16 tips追記 2019 3/9 docker pullリンク追記 2019 11/8 誤字修正 2020 4/6, 4/7 実行手順追記 2022/07/21 コマンド修正 Multilocus sequence typing(MLST)などの遺伝子ベースのタイピング法は、バクテリアpopulationsのゲノム研究のための「ゴー…

(ウィルス) コドンを考慮し、フレームシフトエラーに強いアライメントツール VIRULIGN

多くのウイルス性病原体、特にRNAウイルスは、宿主内および宿主間で急速に進化しており、変化する状態への適応のマーカーがそれらのゲノムにおいて検出され得る(Lemeyら、2006)。ウイルス遺伝子型からの構造、機能および表現型予測は、ウイルス感染の薬物…

Freiburg RNA tools

RNA生物学は分子生物学および生物医学研究における重要なtopicである。biological systemsにおけるRNAの機能は e.g., 病気のプロセスに関するイノベーション(1)からCRISPR-Casに基づく最近の遺伝子編集のイノベーション(2,3)に至るまで、複雑で範囲が広…

HIVディープシーケンシングのマッピングとバリアントコールパイプライン hivmmer

現在、いくつかの次世代シーケンシングマシンが病原体およびウイルスの研究に使用されている(Chabria et al、2014; Quin ones-Mateu et al、2014)。過去20年間に開発された多くの次世代シーケンシングプラットフォームおよびアプローチのうち、イルミナの…

既知変異を保護しながらロングリードRNA seqのエラーを訂正する TranscriptClean

従来のショートリードRNAシークエンシングは、様々な用途における遺伝子発現を定量するために広く使用されている。ショートリードリードは正確で費用効果が高いが、一般に数キロベース長ある全長哺乳動物アイソフォームを解決する能力が欠けている(論文より…

GenomeUPlot

構造変化(SV)を有するサンプルの全ゲノムシーケンシング(WGS)データでは、そのような異常をシンプルなプロットで視覚化する必要性を生じさせる。 WGSデータの従来の2次元表現は、円形または線形レイアウトを頻繁に使用する。これらの表現にはいくつかの…

Structural Variation Engine (SVE)

先日紹介したFusoSVのSVコールパイプラインSVEを紹介する。 Core Frameworks and Extension. Githubより インストール 依存関係が多いためdockerコンテナを使ったランが推奨されている。 Github docker pull timothyjamesbecker/sve > docker run --rm timot…

複数のSVコール結果をマージする FusorSV

欠損、重複、挿入、逆位、コピー数変化、転座などの構造変化(SV)は、ヒトの遺伝的多様性の最も重要な決定因子の1つである。 1000ゲノムプロジェクト(1000GP)などのコンソーシアムの取り組みは、典型的なゲノムが2100〜2500のSV(> 50bp)を含み、SNPの約…

ハプロタイプベースのバリアントコーラー octopus

2019 4/16 誤字修正 2020 4/15 インストール追記 2021 4/8 論文引用 ハプロタイプベースのアプローチは、生殖系列のバリアントをコールするための選択方法として浮かび上がってきた。なぜなら、これらの方法は、リードマッパーからのアライメントエラーに対…

複数のアセンブラとk-merを使ったTranscriptome 自動アセンブリワークフロー Oyster River Protocol

2018 11/2 コマンド追記 & 誤字修正 2018 11/7 誤字修正 2019 4/6 docker追記 2019 6/17 追記、誤字修正 2019 6/21追記 2019 7/5 Step by step instructions link追記 現代のシーケンシング技術は細胞内の代謝過程から人口変動パターンまで、非常に幅広い自…

よく似たゲノム情報を使い不完全なゲノム情報しか持たない種のRNA seq解析の精度を上げる自動化されたツール Necklace

2018 10/31、11/2 タイトル、コード等修正、docker追加 2021 3/9 出力例追記 シーケンシングされた種の数が増加しているが、ゲノムの大部分は不完全である。それらにはギャップが含まれていても、配置されていない領域が残っていてもよく、アノテーションが…

共発現遺伝子の自動クラスタリングツール CLust

遺伝子の転写は、すべての生物において動的かつ協調的に調節される。そのような協調的調節は、時系列およびperturbation-responseデータセット (参考HP) における転写産物の協調的変化として明白である。遺伝子の転写は、遺伝子のプロモーター領域またはエン…

ハイブリッドアセンブリのためのアライメントフリー scaffolding graph構築ツール Fast-SG

2018 10/26 タイトル修正 ゲノム全体のデノボアセンブリの主要な課題は、リピートを解決することである[論文より 1,2]。リピートは、ゲノムの複数の位置で生じるほぼ同一のゲノム配列に対応する。この課題に対処するために、主に2つのタイプのアプローチが提…

大きなk-merも使うde Bruijn graph のアセンブリツール SKESA

2019 4/12 dockerリンク追加 NGSデータを分析するためのシーケンスアライメント、アセンブリ、変異検出、またはそれらのいくつかの組み合わせは、通常、バイオインフォマティクスパイプラインの主要なモジュールである[論文より ref.1,2,3,4,5,6]。微生物ゲ…

バクテリア間で保存されたシンテシーブロックを探す CSBFinder

2020 7/23 論文追記 ゲノミクス(ゲノム学、ゲノム科学)における重要な問題は、遺伝子がゲノム内でどのように構成されているか、どのような情報がコードされているかである(Rogozin et al、2004)。遺伝子の順序に対する選択圧がない場合、リアレンジメン…

バリアントをランク付ける VVP

2018 10/23 コマンドの誤り修正 バリアントの優先順位付けは、遺伝子検査、エキソームまたは全ゲノムシーケンシングの過程で同定されたバリアントが遺伝子機能を損なう可能性があるかどうかを決定するプロセスである(レビュー[論文より ref.1,2,3])。バリ…

エンリッチされたDNAモチーフ配列を検出する DiNAMO

一連のDNA配列が与えられた場合、モチーフ発見は、偶然によって予想されるよりも配列中で有意に頻繁なover-represented(以後、過剰表現)されたモチーフを見つけることにある。これは、バイオインフォマティクスと同程度の歴史を持ち、多数のアプリケーショ…

レビュージャーナル要約 植物ゲノムのアセンブリガイド

シーケンシング技術の急速な進歩と急激なコストのために、非モデル植物からの全ゲノムのアセンブリは、すぐにplant systematistsとevolutionary biologistsにとって日常的になるだろう。ここでは、ゲノムプロジェクトにアプローチする方法についての実践的な…