macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017-09-01から1ヶ月間の記事一覧

トランスポゾンなどのリピートをde novoで探す RepeatScout

RepeatScoutはゲノム中のトランスポゾンなどのリピートを探すツール。リピートを見つけると、そのシードを保存性がなくなるまで伸長する戦略をとることで、見つかりにくい長くてやや配列に違いがあるリピートまで探索することが可能とされる(タンデムリピー…

マイクロサテライトをraw readsから直接探すpalfinder

palfinderはマイクロサテライトやsimple sequence repeats (SSRs)を探すツール。454やilluminaのNGSデータから直接マイクロサテライトを検出し、さらに内部でprimer3を動かし、その増幅プライマーを設計する機能を備える。 インストール 依存 primer3 primer…

mrepsでタンデムリピートを探す

mrepsはダイレクトリピートを探すツール。短い単位の繰り返し配列がタンデムに続く領域を検出することができる。 ミニチュートリアル http://mreps.univ-mlv.fr/tutorial.html webサーバー版 http://bioinfo.lifl.fr/mreps/mreps.php インストール Github Gi…

small RNAをアノテートする ShortStack

ShortStackはsmall RNA seqのデータをリファレンスゲノムにアライメントし、small RNAのlociをアノテートするツール。改良が続けられており、2報目の論文では、高速化の他、複数のシーケンスデータの入力、bowtieによるアライメントなどに対応した。 テスト…

メタゲノムからビニングしたゲノムが完全か、またコンタミがあるか評価する CheckM1

2018 10/7 文章訂正、10/12 dockerコンテナを使ったランの流れ追加 2019 4/11 dockerを使ったランで表も保存するよう修正、/16 インストール追記、11/28 インストール追記、データベース作成の流れを修正、12/6 バージョンアップ追記 2021 1/15 バージョンア…

メタゲノム向けの高速なコード領域検出ツール OrfM

2019 11/29 リンク追記 、タイトル修正 OrfMはcontigやアセンブルされていないリードからstopコドンの有無に関わらずorfを探索するツール。データサイズが莫大になるメタゲノム向けに設計された。非常に高速に動作し、translateやembossパッケージのgetorf、…

NCBIからバクテリアゲノムをダウンロードする

コンプリートなゲノムのダウンロード。 wget ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/bacteria/assembly_summary.txt awk -F '\t' '{if($12=="Complete Genome") print $20}' assembly_summary.txt > assembly_summary_complete_genomes.txtmkdir bacte…

bamに塩基置換やindel変異を起こすbamsurgeon

bamsurgeonはガンの原因となる体細胞突然変異をシミュレートするために構築されたbamに対する変異導入ツール。ユーザーが用意したリストを元にして、bamに不完全な変異や構造変化を引き起こす大きな変異を導入することができる。2015年にnature methodsに発…

QC、エラー修復、トリミング、レポート作成を自動実行する AfterQC

AfterQCはfastqのフィルタリング、トリミング、エラー修復、およびクオリティチェックを全て自動で行なってくれるツールである。エラー修復はオーバーラップするペアードエンドリードのクオリティを比較して実行される。2017年に論文が発表された。 インスト…

VCFを管理、編集する VCFtools

2019 4/16 condaインストール 2019 12/9ビルド手順の誤り修正 2020 1/5 mergeの説明追加 2020 4/18 基本コマンド追記 2020 10/13 追記 20200 10/14 分かりにくい説明を修正 2021 2/17 dockerリンク追加 2021 5/16 ”変異”を”バリアント”に修正 2023/09/29 vcf…

マルチプルアライメンントのトリミングツール trimAI

2020 5/14 help追記 2021 1/23 condaによるインストール追記 マルチプルアライメントを行うとアライメントがほとんどできない領域ができることがあるが、そういった領域は情報として利用するのが難しいため、一般的に除去しても問題にならない。trimAIはラー…

リファレンスを変えて、変異株のゲノム配列を作る。

2019 8/3 リンク追加 2021 2/17 dockerhubリンク追加 変異のコール結果であるVCFファイルを元に変異株のゲノムを作りたいことが時々ある。そうゆう時は、gatkのFastaAlternateReferenceMakerが利用できる。 マニュアル gatkがない人はbrewで導入しておく。 b…

メタゲノムcontigのカバレッジ、GC、taxonomy情報を可視化して分析できる BlobTools

2019 1/16 テストラン追加、diamondデータベースbuidコマンドエラー修正 2019 1/19 diamondデータベースbuidコマンド修正 2019 1/21 追記 2019 6/22 インストール追記 2020 7/29 シミュレーション追記 2020 9/29 追記 2021 9/1 ビルドコマンド修正( リンク修…

アセンブルのgraphを可視化する GUIツール Bandage

2018 9/19 コマンド修正 2018 11/17 文章修正 2018 12/15 インストール追記 2019 2/28 追記 2019 3/19 scafofldsのコマンドのミス修正 2019 5/15リンク追加 2020 3/8動画追加 2022/06/02 ツイート追加 bandageはde novo assemblerのfastgファイルを入力とし…

マッピングを評価するツール qplot

qplotはマッピング結果の統計情報を出力したり、empiricalなクオリティスコアとマッピング結果から求めたベースクオリティスコアの差などをグラフ化したPDFを出力することができる(既知SNPsファイルが必要)。クオリティの低い塩基(バーコードとか)が残っ…

コード領域のアミノ酸配列を考えてマルチプルアライメントを行うMUCSE

塩基配列からコード領域のアミノ酸配列を予測してマルチプルアライメントを行う場合、従来はギャップやミスを補正せず全ての配列をアミノ酸に変換してアライメントを行なっていた。しかしこのような一義的に変換する方法だと、シーケンスエラーや擬遺伝子のs…

メタゲノムデータをbinningして種を予測するMBBC

MBBCはメタゲノムをbinningする方法論。リード中のk-mer頻度とk-merカバレッジから分類とabundanceの見積もりを行う。2015年に論文が発表された。 マニュアル http://eecs.ucf.edu/~xiaoman/MBBC/man1V1.html インストール ダウンロード 実行方法 GUIバージ…

クオリティトリミングを行う condetri

condetriはペアリードを考量してクオリティトリミングが行えるperlのツール。 公式サイト https://code.google.com/archive/p/condetri/ マニュアル ダウンロードしたディレクトリにPDFマニュアルあり。 インストール 本体はperlスクリプトである。 GIthub …

マルチプルアライメントを行う T-Coffee

T-Coffee(Tree based Consistency Objective Function For AlignmEnt Evaluation)はマルチプルアライメントを行うツールである。始めに2つずつ配列を比較し、それから全部の配列を使いマルチプルアライメントを実行する。従来のclustalより高速に動作する…

メタゲノムの自動解析パイプライン MyCC

2019 7/6 インストール、ラン追記 MyCCは全プロセスを自動化したメタゲノム解析ツール。contigのfastaファイルを入力すると、配列の特性に従って自動で分類し、binning向けに色がついた図を描画し、さらにクラスタリングされたfastaまで出力することができる…

DNA解析ソフトに近い機能を提供するwebツール集 SMS

2019 8/7リンク追加 2021 10/3リンクエラー修正 SMSは、NGSの登場よりずっと以前から使われているDNA/プロテインの編集や変換ができるツール集である。昔からあるDNA解析ソフトの大半の機能をカバーしている。webサーバー版とオフラインで動くローカル版があ…

メタゲノムの簡単なシミュレートを行う BBMap

メタゲノムをシミュレートするには、ゲノムごとのインサートサイズや増幅biasなどを考慮する必要があり、厳密に行うと計算が複雑になる。また計算リソースも高度に要求される。そのためGPUを使ったシミュレーションツールなども登場している。それに加えて、…

メタゲノムデータを種レベルで検出し割合を計算するMOCAT

公式サイト チュートリアル http://vm-lux.embl.de/~kultima/MOCAT/tutorial.html ダウンロード http://vm-lux.embl.de/~kultima/MOCAT/download.html fetchMGとの違い Taxonomic profiling using mOTUs インストール macOSでは動作しない。cent OSに導入し…

配列のクラスタリングツール UCLUST

2019 9/29 help追加 2019 9/30 fastaへの変換コマンド追加 相同な配列をクラスタリングするツール。相同性の下限値を指定してランすると、閾値以上の相同性を持った塩基配列をまとめてくれる。CD-HIT-ESTより高速に動作するとされる。 ダウンロード (linux, …

メタゲノムデータを種レベルで検出し割合を計算するmOTUとfetch-MG

追記9/5;ソフト名や使い方を勘違いしておりましたので修正します。 環境サンプル中の種の多様性を評価する手法として16S rRNA遺伝子を特異的に増幅する手法がよく知られているが、種によっては配列の異なるrRNA遺伝子を複数持つことがある。ここにPCR増幅の…

メタゲノムデータをbinningして出力可能なGUIアプリ VizBin

2019 7/5文章修正 VizBinはメタゲノムデータをレファレンスに依存せずにbinnigする手法。テトラヌクレオタイド頻度情報を使いアセンブルデータを分類する。最終的に2次元のPCAプロットとしてビジュアル化してくれる。どこからどこまでを1つの生物として抽…

複数のcontigをマージしアセンブリの連続性を改善する Mix

2019 6/11 追記 ゲノムアセンブリ構築の利点を得ることを妨げる課題の中には、未完成のアセンブリおよびその後の実験的な費用の両方がある。第一に、ゲノムデノボアセンブリのための多数のソフトウェアソリューションが利用可能であり、それぞれがその長所と…

de novoアセンブルしてバリアントをコールするDISCOVAR

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental du…

バクテリアやアーキアの遺伝子を予測するProdigal(メタゲノムデータセットにも対応)

2019 5/8 インストール追記 2021 7/13 help更新 2022/07/20 追記 2023/08/23 追記 ProdigalはDynamic Programmingの方法論により効率的にバクテリアやアーキアの遺伝子を探すツール。既存の方法は様々存在するが、本手法はまずインプットゲノムを分析してモ…

tRNAやtmRNAをゲノムから素早く検出する ARAGORN

2019 2/15 Biocondaインストール追加、バッチモード追加 2019 3/10 タイトル修正 2019 5/50 インストール方法追記 ARAGORNは既存のtRNAとのホモロジーや二次構造などを手掛かりにゲノム中からtRNAやtmRNAを探すツール。 webサーバー ARAGORN, tRNA (and tmRN…