macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2015

CircosをWeb上 で利用できる ClicO FS

2020 7/24 関連文献追記 Circos(Krzywinski et al、2009)(HP)は、ビジュアルデータを環状形式で表現するPerl言語ベースのツールである。ネイティブのCircosソフトウェアは、コマンドラインインターフェイス(CLI)を介して提供されている。ソフトウェア…

メタゲノムアセンブリ結果を可視化してマニュアルビニングを助ける gbtools

ほとんどの環境微生物が難培養性であることを考えると、microbial ecologyの分野では、metagenomicsは全コミュニティの機能を調べる手段に由来していた(論文より Handelsman、2004; Kunin et al、2008; Teeling and Glockner、2012)。研究者は、微生物群全…

ヒトゲノムの統合変異検出パイプライン speedseq

2018 8/7 ホストからジョブを投げるようにコマンド修正 2018 8/8 realignコマンド修正 2020 4/15 コマンド記載ミス修正 第2世代のDNA配列決定技術の技術的進歩により、全ゲノム配列決定(WGS)データを生成するために必要なコストと時間が削減され、これまで…

ハプロタイプフェージングを行う whatshap

2019 3/18 インストールの流れ修正 2019 3/26 誤字修正 2019 11/8 タイトル修正 ヒトゲノムは二倍体であり、すなわち、その常染色体の各々は2コピーである。これらの親のコピーは、異なる一塩基多型(SNPs)の影響を受ける。変異がどちらの染色体由来かアサ…

ロングリードを使い環状DNAかどうか調べる Circlator

2019 2/26 condaインストール追記 デノボアセンブリの課題は、世界初の自動DNAシーケンサーの登場以来ずっと存在していた。初期ゲノムシーケンスデータのアセンブリは、大きく2つの戦略に基づいていた:BAC / YACタイリングまたは全ゲノムショットガン[論文…

SAMTools互換の高速なsam,bam,cram処理ツール elprep

2019 7/28 コマンド修正 2019 8/3 リンク追加 一般にDNA配列解析はマッピングとそれに続く分析からなる(論文 図1)。マッピング段階では、BWA [論文より ref.1]のようなアライメントツールを介して既知の参照ゲノムにマッピングされる。その後、マッピング…

新規にシンテシー解析が可能な SynFind

保存されたシンテニーは、共通のゲノムを共有することによって支持される遺伝子間の推測された相同性関係を指し、生物のすべての領域にわたって広く使用される測定法である(論文より Moreno-Hagelsieb et al, 2001; Engstrom et al, 2007; Heger Ponting 20…

高速なRNA seqのマッピングツール HISAT2

2019 6/18 コマンド追記 2019 6/26 インストール追記 2019 6/28 samtoolsコマンドエラー修正 2020 3/22 help更新 2020 4/16 multiqcとの連携例 2020 4/29 誤解のある表現を修正 2020 8/28 index追記, help更新 RNA-seqは、2008年に導入されて以来、遺伝子発…

メタゲノムから特定の種のリードを得る MetaObtainer

微生物ゲノム研究は通常、実験的限界のために1つの細菌株に焦点を当てる。この種の方法は、少なくとも2つの欠点を有する:(1)微生物の99%以上が未知であり、栽培または単離することができない。 (2)生息地の微生物が互いとその宿主に対して様々な機能的…

バクテリアゲノムアノテーションツール間の注釈を自動比較する BEACON

ゲノムアノテーションは、ゲノム配列中の異なるセグメントの機能を同定して示すために使用され[ 論文より ref.1 ]、多くの下流ゲノム解析の基礎となっている。 真核生物[ref. 2 ]および原核生物[ref. 3 ]のためのいくつかのアノテーション手法(AM)が開発さ…

メイトペア情報を使いスキャホールドの誤りを検出する NxRepair

ゲノムのde novoアセンブリの一般的な方法は、de Bruijnグラフ(論文より Compeau、Pevzner&Tesler、2011)の構築に基づく。最も単純なケースでは、グラフはシングルエンドリードから構成されるが、シングルエンドのリードだけでは、de Bruijnグラフをもつ…

ペアエンドリードを使いミスアセンブリを検出する misFinder

ミスアセンブルを検出するツールにはQuest、GAGEなどがあるが、これらのツールはミスアセンブルとリファンレスの違いを区別せず全て報告する。そのため、ミスアセンブルのみを検出するには通常さらなる工夫が必要になる。 一方、CGALやALE、REAPRはDe novoの…

ロングリードやcontig情報を使いスキャッホールドのギャップを埋める GMcloser

2019 9/4 インストール追記 NGSのリードやアセンブルしたコンティグを使い、スキャッホールドのギャップを埋めるツールがいくつか発表されているが、オーサーらは、これらのツールに起因するアセンブリのエラー率が、デノボアセンブルで起こるエラー率よりも…

複数のアセンブラのコンティグをマージする Metassembler

2019 6/10 追記 2019 6/11 関連ツール追記 ゲノムアセンブリプロジェクトでは、通常、単一の最良のアセンブリを見つけるために複数のアルゴリズムを実行するが、それらのアセンブリには、未開発の場合は補完的な長所と短所がある。 本著者らは、ゲノムの複数…

真核生物のRNAのコード領域を予測するGeneMarkS-T

GeneMarkS-T は教師なし学習でトレーニングされたRNAのタンパク質コード領域を予測ツール。原核生物向けのGeneMarkSを真核生物向けに拡張して作られた。データサイズに寄らず一定の検出率を示すため、データが莫大になるメタトランスクリプトーム解析のコー…

RNA seqのクオリティチェックツール QoRTs

RNA-Seqは特定のバイアス、アーティファクトを受けやすく、 堅牢で包括的なクオリティチェックが重要になる。とくにサンプル調製、ライブラリー作成、またはシークエンシングのエラーは、 予期せぬアーティファクト、バイアスを引き起こす。適切に処理できる…

SNVやRNA edittingに適した高精度なRNA seqのアライナー RASER

RNAのシーケンスデータをゲノムにアライメントする場合、イントロンを跨いでリードをアライメントする必要があるため、リードをsplitしてアライメントできるアライナーが使われる(真核生物のRNA seq)。イントロンは数十kbもある可能性があるので、split-al…

複数ファイルのk-merをカウントし、共通/固有のk-merを抽出できる Genome Tester4

GenomeTester4はk-merをカウントしたり、操作するためのパッケージ。 固有のk-merを調べたりもできる。 インストール Github https://github.com/bioinfo-ut/GenomeTester4 git clone https://github.com/bioinfo-ut/GenomeTester4.gitcd GenomeTester4/src/…

TE及び単純反復をDe novoで検出する Red

2020 10/5 インストール追記 技術の急速な進歩により、何千もの種のゲノムの配列が利用できるようになってきている。これらの配列の中には、ゲノムの大部分を構成するリピートが含まれている。そのため、アノテーションを成功させるためには、リピートを正確…

イルミナのエラーコレクションツール QuorUM

QuorUMはMaSuRCAなどにも組み込まれているエラーコレクションパイプライン。 インストール Github https://github.com/gmarcais/Quorum brewで導入できる( macではエラーになったのでubuntu14.4にlinuxbrewで入れた)。 > quorum --help user$ quorum --help …

RNAのエラーコレクションツール Rcorrector

2020 8/7 インストール追記 Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレ…

エラーコレクションツール ACE

インストール cent OSに導入した。 Github https://github.com/sheikhizadeh/ACE/ brewで導入できる。 パスが通ったディレクトリに移動しておく。 user$ delly ********************************************************************** Program: Delly This…

エラーコレクションツール BFC

100MBのデータならおよそ10秒程度で処理できる(10スレッド使用時)。 インストール Github git clone https://github.com/lh3/bfc.gitcd bfc/make./bfc -h #動作確認 user$ ./bfc -h Usage: bfc [options] <to-count.fq> [to-correct.fq] Options: -s FLOAT approx genom</to-count.fq>…

エラーコレクションツール karect

2019 9/8 インストール追記 De novo assembly時、シーケンスエラーを間違ってscaffoldsに組み込んでしまうと、dead-endのグラフができたり、false positiveの分岐が生じたり、あるいはキメラのパスができてしまう可能性がある。そのため、アセンブル前にエラ…

近縁な何百~何千のバクテリアの系統解析を行うGubbins

ハイスループット第二世代のDNAシーケンス技術が導入されて以来、細菌集団の系統力学を推定するために使用されるデータセットのサイズが非常に大きくなってきている。多くの系統学的手法は数百の細菌ゲノムに拡張可能であるが、配列の水平転移のメカニズムが…

ウィルスゲノムのde novo assemblyツール IVA

RNAウィルスのシーケンスでは、逆転写やPCR増幅のbiasにより極めて不均一なカバレッジになってしまうことが知られている。1本の鎖の中のカバレッジが大きく変動するため、一般のde brujinグラフのアセンブルツールはもとより、鋳型量が異なるmRNAやメタゲノ…

ロングリードをpolishする nanocorrect

2018 9/22 タイトル変更 nanocorrectはナノポアリードをpolishする方法論。速度が遅いのが欠点らしく、後継としてnaonpolishが発表されている(リンク)。 インストール 依存 daligner DAZZ_DB POA 全てbrewで導入できる。 Github 実行方法 最初にDALIGNERの…

アダンプタートリミングツール TagDust2

TgaDust2は、アダプター、バーコード、単純リピートなどの不要な情報を見つけて除去するツール。2009年にTagDDustが発表され、その後2015年にTagDust2が発表された。 公式サイト TagDust インストール brewで導入できる。 brew install TagDust brewではTagD…

SVを検出する wham

whamはsplit-read情報、soft-clipping情報、コンセンサス配列情報などを統合してSVを検出するSV検出の方法論。サイズの大きなSVも検出することが可能である。ダウンロードできるパッケージにはwhamとwhamgの2つのツールが入っている。2015年に発表された論…

メタゲノムからビニングしたゲノムが完全か、またコンタミがあるか評価する CheckM

2018 10/7 文章訂正 2018 10/12 dockerコンテナを使ったランの流れ追加 2019 4/11 dockerを使ったランで表も保存するよう修正 2019 6/16 インストール追記 2019 11/28 インストール追記、データベース作成の流れを修正 201 912/6 バージョンアップ追記 ドラ…