macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017-01-01から1年間の記事一覧

巨大なプロテインファミリーのマルチプルアライメントを行うFAMSA

FAMSAは大規模タンパク質ファミリーのマルチプルアライメントを可能にするアルゴリズムを持つ方法論。CPUの並列化に対応しており、数千-数十万のタンパク質ファミリーの高速なマルチプルアライメントが可能になっている。 論文中では、オーサーが定義したお…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

ウィルスゲノムのde novo assemblyツール IVA

RNAウィルスのシーケンスでは、逆転写やPCR増幅のbiasにより極めて不均一なカバレッジになってしまうことが知られている。1本の鎖の中のカバレッジが大きく変動するため、一般のde brujinグラフのアセンブルツールはもとより、鋳型量が異なるmRNAやメタゲノ…

GCbiasを考慮したイルミナのシミュレーター ArtificialFastqGenerator

ArtificialFastqGeneratorはカバレッジGCバイアスを考慮可能なNGSリードのシミュレーター。イルミナのペアードエンドfastqに対応している。 比較表 Biostars https://www.biostars.org/p/124126/ ダウンロード javaの実行ファイルがダウンロードできる。 htt…

bamCoverageを使いカバレッジトラックを作成する

2019 9/13 インストール追記 2024/.04/15更新 deeptoolsはRNA-seq解析やchip-seq解析に特化したアライメントのカウント分析ツール(webサーバ)である。ヒートマップ出力などの機能を持ち、ツールの中にあるbamCoverageを使うと、bamのカバレッジ情報をwig形式…

メタゲノム内の遺伝子を系統樹的に分類するためのスケーラブルなツール GraftM

2022/05/04 インストール手順修正 gtaftMは指定した遺伝子ファミリーをメタゲノムデータから探し出し、あらかじめ作成した系統樹に配置するためのツール。 HP GraftM - How to get fast community profiles from metagenomes manual https://github.com/gero…

ハイブリッドアセンブリにも対応したショートリードアセンブラ Unicycler

2019 追記、 dockerリンク追加、help all追加、コメント追記 2020 help更新、追記 2021 2/25 誤字修正、5/9 ツイート追加 2022 1/25 v5に対応してインストール手順を修正、02/22, 09/21 インストール手順を修正 2023/07/11,12 追記 2024/02/07, 11追記 現在…

ハイブリッドアセンブルを行うquickmerge

2021 6/17 condaインストール追記 quickmergeは、ロングリード情報を使い、アセンブルのcontiguityを向上させるツール。特にロングリードのカバレッジがmodestな時にcontiguityが大きく向上するとされる。他のツールのアセンブル結果を入力ファイルとする。 …

ロングリードをpolishする nanocorrect

2018 9/22 タイトル変更 nanocorrectはナノポアリードをpolishする方法論。速度が遅いのが欠点らしく、後継としてnaonpolishが発表されている(リンク)。 インストール 依存 daligner DAZZ_DB POA 全てbrewで導入できる。 Github 実行方法 最初にDALIGNERの…

高速なSNV、indel、CNVのシミュレータ SlnC

SlnCは最も多い変異であるSNV、indel、CNVをシミュレートできるNGSのリードシミュレーションツール。マルチコアに対応しており、ARTのようなツールと比較して高速にカバレッジのディープなデータセットを発生させることができる。 ダウンロード 依存 GSL (ht…

シュードゲノムのシミューレーター Simulome

Simulomeは2017年に発表されたbacteria向けの遺伝子のシミュレートツールである。gene情報を与えることで、標準では一部の遺伝子に限定してシミュレートする。具体的には、遺伝子の長さの分布を調べ、その平均と標準偏差から遺伝子のサンプリングをお行い、…

マルチプルシーケンスアラインメントを行うMAFFT

2019 6/13 説明及びインストール追記、6/21 コマンド微修正、7/3 説明修正、7/15 help追記、9/29 twitter追加、11/4 関連追加、m11/13 誤字修正 2020 4/15 タイトル修正、5/30 link追加 2024/04/27 インストール追記 MAFFT開発秘話。私が4回生で宮田研に加わ…

トランスポゾン検出ツール6 Tangram

2021 8/20 追記 Tangramはトランスポゾンの検出に特化した構造変化検出ツール。SV検出で用いられるread-pairとsplit-readのアルゴリズムを使い高感度にトランスポゾンを検出する。1000ゲノムでもmobile element検出ツールとして用いられた。トランスポゾン検…

アダンプタートリミングツール TagDust2

TgaDust2は、アダプター、バーコード、単純リピートなどの不要な情報を見つけて除去するツール。2009年にTagDustが発表され、その後2015年にTagDust2が発表された。 公式サイト TagDust インストール brewで導入できる。 brew install TagDust brewではTagDu…

EMBOSSのseqretを使ってfastaファイルを修復する

2019 6/19 インストール追記 2019 7/15 タイトル修正 2019 8/7リンク追加 2019 10/3コメント追加 fastaファイルfをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、…

リファレンス配列に点変異やSVを導入するEMBOSSのmsbar

2019 7/16 タイトル修正 EMBOSSパッケージのmsbarを使うと、リファレンスに変異を導入することができる。変異のシミュレーション実験などに使える機能である。 公式サイト http://emboss.sourceforge.net EMBOSS: msbar インストール embossはcondaやbrewで…

SVを検出する wham

whamはsplit-read情報、soft-clipping情報、コンセンサス配列情報などを統合してSVを検出するSV検出の方法論。サイズの大きなSVも検出することが可能である。ダウンロードできるパッケージにはwhamとwhamgの2つのツールが入っている。2015年に発表された論…

ナノポアのロングリードのトリミングやフィルタリングを行うNanofilt

2019 2/14 コマンド追加 2019 5/19 ヘルプ追加、パラメータ変更 2019 12/30並列処理例追加 2020 10/10 リンク追加 nanofitはナノポアのロングリードのクオリティトリミングができるツールである。 インストール Github https://github.com/wdecoster/nanofil…

ナノポアのロングリードの長さやクオリティを分析するnanostatとNanoPlot

2019 5/19 インストール追記 2019 9/7コメント追加2020 1/4 インストール手順仮想環境に導入するように修正 2021 9/17 追記 2022/04/20 インストール追記 (python=3.5 => python=3.8 ) ショートリード用のクオリティ分析ツールはナノポアのロングリードでは…

SV検出結果のVCFファイルを統合する mergeSVcallers

構造変化検出結果はツールによって得手不得手があるため、網羅的にSVを検出するためには、現状複数ツールを並行して走らせるのが理想とされる。そのため、複数のツール結果を統合して弱点を無くすような方法論も出て来たりしている。しかし、ツールによって…

ナノポアのロングリードを使うとアセンブルはどのくらい改善されるのか?

ハイクオリティなショートリードのデータに、ロングリード情報を混ぜ込むとどれくらいアセンブリは改善されるのか調べてみる。 NがあってもgrepやUCSC ゲノムブラウザで除くことができるが、それでは肝心の繰り返し領域の評価が曖昧になる。やはりNがないコ…

MinIONでシーケンスを行う

1随時更新 MinION(ミナイオン)でシーケンスする流れを説明する。 ナノポアに関しては模索中の段階です。書いていることが必ずしも正しいとは限らないことに注意してください。 wiki MinION (Oxford Nanopore) - wiki 公式ツイッター LONDON CALLING 2022 T…

ナノポアリードをマッピングする NanoBLASTer

NanoBLASTer はナノポア用のアライメントツール。S. cerevisiaeとEscherichia coliのゲノムリシーケンス解析で、LAST、BLAST、 BWA-MEM、GraphMap よりアライメント率が高く、ランニングタイムも短かったと主張されている。 ダウンロード Github git clone h…

バクテリアなどのスモールゲノムの比較結果を可視化する BRIG

2018 9/22 タイトル修正 BRIG(BLAST Ring Image Generator)はゲノム比較のためのツール。blast(blastn、blastp、blastxなど選択可能)を行い、ホモロジー解析結果をリング状の図に出力することができる。ゲノムサイズは20Mまで対応しているらしい。javaの…

アセンブリのエラーやギャップ(NNN)を検出し、ポリッシュしたFASTAを出力するPilon

2018 8/31 タイトルと紹介文修正、11/5 タイトル修正 2019 1/11 追記、3/3ラストにnanopore long read追記、4/12 ラストにpacbio long read追記、6/12 リンク追記、6/27 merged.fq追記、7/15 追記、9/29 追記、10/28インストール追記 2021 2/28 関連論文追記…

環状ゲノムを探す ccontigs

ccontigsはコンティグ末端の配列がオーバーラップしているかどうか調べることで、コンティグからclosed circularなゲノムを探すツール。環状のプラスミドやウィルスを検出できるとされる。論文にはなっていない。 ただし直鎖状コンティグでも末端が重複して…

トランスポゾンなどのリピートをde novoで探す RepeatScout

RepeatScoutはゲノム中のトランスポゾンなどのリピートを探すツール。リピートを見つけると、そのシードを保存性がなくなるまで伸長する戦略をとることで、見つかりにくい長くてやや配列に違いがあるリピートまで探索することが可能とされる(タンデムリピー…

マイクロサテライトをraw readsから直接探すpalfinder

palfinderはマイクロサテライトやsimple sequence repeats (SSRs)を探すツール。454やilluminaのNGSデータから直接マイクロサテライトを検出し、さらに内部でprimer3を動かし、その増幅プライマーを設計する機能を備える。 インストール 依存 primer3 primer…

mrepsでタンデムリピートを探す

mrepsはダイレクトリピートを探すツール。短い単位の繰り返し配列がタンデムに続く領域を検出することができる。 ミニチュートリアル http://mreps.univ-mlv.fr/tutorial.html webサーバー版 http://bioinfo.lifl.fr/mreps/mreps.php インストール Github Gi…

small RNAをアノテートする ShortStack

ShortStackはsmall RNA seqのデータをリファレンスゲノムにアライメントし、small RNAのlociをアノテートするツール。改良が続けられており、2報目の論文では、高速化の他、複数のシーケンスデータの入力、bowtieによるアライメントなどに対応した。 テスト…