macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2015

エラーコレクションツール BFC

100MBのデータならおよそ10秒程度で処理できる(10スレッド使用時)。 インストール Github git clone https://github.com/lh3/bfc.gitcd bfc/make./bfc -h #動作確認 user$ ./bfc -h Usage: bfc [options] <to-count.fq> [to-correct.fq] Options: -s FLOAT approx genom</to-count.fq>…

エラーコレクションツール karect

2019 9/8 インストール追記 De novo assembly時、シーケンスエラーを間違ってscaffoldsに組み込んでしまうと、dead-endのグラフができたり、false positiveの分岐が生じたり、あるいはキメラのパスができてしまう可能性がある。そのため、アセンブル前にエラ…

近縁な何百~何千のバクテリアの系統解析を行うGubbins

2022 1/26 インストール手順変更 ハイスループット第二世代のDNAシーケンス技術が導入されて以来、細菌集団の系統力学を推定するために使用されるデータセットのサイズが非常に大きくなってきている。多くの系統学的手法は数百の細菌ゲノムに拡張可能である…

ウィルスゲノムのde novo assemblyツール IVA

RNAウィルスのシーケンスでは、逆転写やPCR増幅のbiasにより極めて不均一なカバレッジになってしまうことが知られている。1本の鎖の中のカバレッジが大きく変動するため、一般のde brujinグラフのアセンブルツールはもとより、鋳型量が異なるmRNAやメタゲノ…

ロングリードをpolishする nanocorrect

2018 9/22 タイトル変更 nanocorrectはナノポアリードをpolishする方法論。速度が遅いのが欠点らしく、後継としてnaonpolishが発表されている(リンク)。 インストール 依存 daligner DAZZ_DB POA 全てbrewで導入できる。 Github 実行方法 最初にDALIGNERの…

アダンプタートリミングツール TagDust2

TgaDust2は、アダプター、バーコード、単純リピートなどの不要な情報を見つけて除去するツール。2009年にTagDustが発表され、その後2015年にTagDust2が発表された。 公式サイト TagDust インストール brewで導入できる。 brew install TagDust brewではTagDu…

SVを検出する wham

whamはsplit-read情報、soft-clipping情報、コンセンサス配列情報などを統合してSVを検出するSV検出の方法論。サイズの大きなSVも検出することが可能である。ダウンロードできるパッケージにはwhamとwhamgの2つのツールが入っている。2015年に発表された論…

メタゲノムからビニングしたゲノムが完全か、またコンタミがあるか評価する CheckM1

2018 10/7 文章訂正、10/12 dockerコンテナを使ったランの流れ追加 2019 4/11 dockerを使ったランで表も保存するよう修正、/16 インストール追記、11/28 インストール追記、データベース作成の流れを修正、12/6 バージョンアップ追記 2021 1/15 バージョンア…

bamに塩基置換やindel変異を起こすbamsurgeon

bamsurgeonはガンの原因となる体細胞突然変異をシミュレートするために構築されたbamに対する変異導入ツール。ユーザーが用意したリストを元にして、bamに不完全な変異や構造変化を引き起こす大きな変異を導入することができる。2015年にnature methodsに発…

アセンブルのgraphを可視化する GUIツール Bandage

2018 9/19 コマンド修正 2018 11/17 文章修正 2018 12/15 インストール追記 2019 2/28 追記 2019 3/19 scafofldsのコマンドのミス修正 2019 5/15リンク追加 2020 3/8動画追加 2022/06/02 ツイート追加 bandageはde novo assemblerのfastgファイルを入力とし…

メタゲノムデータをbinningして種を予測するMBBC

MBBCはメタゲノムをbinningする方法論。リード中のk-mer頻度とk-merカバレッジから分類とabundanceの見積もりを行う。2015年に論文が発表された。 マニュアル http://eecs.ucf.edu/~xiaoman/MBBC/man1V1.html インストール ダウンロード 実行方法 GUIバージ…

メタゲノムデータをbinningして出力可能なGUIアプリ VizBin

2019 7/5文章修正 VizBinはメタゲノムデータをレファレンスに依存せずにbinnigする手法。テトラヌクレオタイド頻度情報を使いアセンブルデータを分類する。最終的に2次元のPCAプロットとしてビジュアル化してくれる。どこからどこまでを1つの生物として抽…

Nextera Mate Pair protocolのジャンクションプライマー除去ツール NxTrim

イルミナはmate pairシーケンスのキットも販売している。このプロトコルではNextraのトランスポゾンでタギングしたゲノムをセルフライゲーションさせて離れた配列を近づける。そのため中央にジャンクション配列が残る(図1 赤の配列)。NxTrimはそのジャン…

BLASTとコンパチブルで高速なホモロジー検索ツール Diamond

2019 1/20 help追加 、コマンド追記, 6/9 -コマンド例から-max-target-seqs削除, 7/19 追記 2021 2/13 ツイート追記 2022/04/07 インストール追記、07/22 例追記、help更新 Diamondはindexのつけ方を工夫することでBLASTXの解析速度を加速できるツール。blas…

RNA seqのリードカウント HTSeq-count

2020 8/15 condaによるインストールとhelp追記 2021 8/6 リンク消去 HTSeqはNGSデータの各種ハンドリングができるツール。ここではその1つhtseq-countコマンドを紹介する。htseq-countはリードのアライメントデータからカウントデータを出力するために使う…

RNA-seqのゲノムガイドアセンブリツール StringTie

StringTieはゲノムガイドのRNAアセンブリツール。cufflinksよりアセンブリ精度が高く、解析時間も短いと言われている。2015年にNature Biotechnologyに論文が発表された。 インストール Github https://github.com/gpertea/stringtie brewで導入可能。 マニ…

クレード特異的マーカー遺伝子を使いメタゲノム配列のtaxnomy assigmentを行う MetaPhlAn2、クラスタリングするHclust2、系統樹を作成するGraPhlAn

2019 5/17 condaインストール追記、イントロ文章修正、 2019 7/2タイトル修正 2019 7/4 インストール追記 2019 7/6 インストール追記タイトル修正、誤解を招く文章を削除 2019 10/8 インストール追記 2020 8/24 condaインストール追記 2021 7/16 mambaに変更…

ウィルスゲノムのアセンブルツール IVA (Iterative Virus Assembler)

IVA (Iterative Virus Assembler)はウィルス用のDNAアセンブラ。2015年に発表された。カバレッジが大きく変動するウィルスゲノムのアセンブルに対応しているとされる。入力データはilluminaのペーアドエンドである。前もって作ったcontigからscaffoldを作っ…

オルソログを探す OrthoFinder

2019/11/3 condaインストール追記 2019/11/24 help追記 2022/1/5 helpのバージョン更新 2023/03/01 docker 追記 配列間の相同性関係を同定することは生物学的研究にとって基本である。 ここで本著者らはオルソロググループ推論アルゴリズムにおける以前には…

アセンブル結果をCore gene setの検出数で評価する BUSCO

2018 1/9 version3のコマンドを最後に追記 2019 2/24 論文追記 2019 7/5 verrsion3向けに説明をアップデート 2019 11/24 論文追記 2019 12/26 v4インストール追記 2020 3/26 v4 追記 2020 6/15 構成を変更 2020 7/7 v4 のtrancrripts の説明が間違っていたの…

バクテリアのIS検出ツール IS_mapper

2019 2/19 インストールの流れを修正 2021 8/11 condaインストール追記, help更新 見つけたいIS配列や抗生物質耐性カセット配列をあらかじめ入力することで、ペアエンド情報を使いISの位置を検出してくれるツール。バクテリア用に設計されており、macbook ai…

トランスポゾン検出ツール3 Jitterbug

ショートリードのアライメントデータから、トランスポゾン挿入位置を検出するツール。入力はリファレンスにアライメントしたbamファイルで、トランスポゾン配列を準備してアライメントする必要はない。配列の位置がgff3で入力されていればよい。その代わりに…

トランスポゾン検出ツール1 MELT

2021 8/20 help追加 MELTは、iiluminaのペアエンドデータを使いリファレンスに存在しないmobile elementを検出するツール。以前1000 genomeで使われていたが、その後バージョンアップにより様々なゲノムに対応するようになった。SGEの分散コンピュータ環境か…

ナノポアのアセンブルデータのキュレーション及び変異の検出 nanopolish

誤りが見つかったため、初投稿からいくつか内容を修正しています。 R7のデータがnanopolishで解析できなかったため、 テストデータについてもR9で読んだデータを使うように修正しました。 オックスフォードNanoporeシーケンシングデータのシグナルレベル解析…