macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2016

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

String graphとde Bruin graphを使ったアセンブルを行う StriDe

De Brujinのgraphを使うde novo assemblyの手法は、OLCのgraphを使った手法が苦手とするエラーが多い領域のアセンブルに強く、大量のリードの処理効率も優れている。しかしながら、リードをk-merサイズに分解するため、k-mer以上の繰り返し配列がある領域の…

ロングリードのハイブリッドエラーコレクションツール CoLoRMap

CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同…

BWAに近い精度でかつ数倍高速なマッピングツール FSVA

HiseqX10などの登場でシーケンススループットはますます高まっているが、ソフトの方が追いついていない。200GBのデータを処理するのに、BWA MEMだと1CPU使用で80時間程度かかる(20コアでようやく10-20時間)。解決には分散コンピューティング(e.g., pBWA、Sp…

バクテリアの保存されたgene clusterを探し、結果をビジュアル表示する Gecko3

Gecko3は複数ゲノムを比較して、保存された遺伝子クラスターを検出する方法論。ユーザーが指定した特定の遺伝子群について関連のある遺伝子や遺伝子クラスターを検索することができるSTRINGなどのデータベースと異なり、Gecko3は調べたい生物群の全遺伝子を…

指定した遺伝子のターゲットエンリッチメントを行う HybPiper

HybPiperは系統解析などを行うために遺伝子領域のエンリッチメントを行うことができるツール。NGSのリードを出発点として、準備した遺伝子配列セット(bait)にリードをアライメントし(BWA, BLAST)、spadesで個別にアセンブルを実行する。出力はcDNA配列と…

巨大なプロテインファミリーのマルチプルアライメントを行うFAMSA

FAMSAは大規模タンパク質ファミリーのマルチプルアライメントを可能にするアルゴリズムを持つ方法論。CPUの並列化に対応しており、数千-数十万のタンパク質ファミリーの高速なマルチプルアライメントが可能になっている。 論文中では、オーサーが定義したお…

ハイブリッドアセンブルを行うquickmerge

2021 6/17 condaインストール追記 quickmergeは、ロングリード情報を使い、アセンブルのcontiguityを向上させるツール。特にロングリードのカバレッジがmodestな時にcontiguityが大きく向上するとされる。他のツールのアセンブル結果を入力ファイルとする。 …

メタゲノム向けの高速なコード領域検出ツール OrfM

2019 11/29 リンク追記 、タイトル修正 OrfMはcontigやアセンブルされていないリードからstopコドンの有無に関わらずorfを探索するツール。データサイズが莫大になるメタゲノム向けに設計された。非常に高速に動作し、translateやembossパッケージのgetorf、…

メタゲノムの自動解析パイプライン MyCC

2019 7/6 インストール、ラン追記 MyCCは全プロセスを自動化したメタゲノム解析ツール。contigのfastaファイルを入力すると、配列の特性に従って自動で分類し、binning向けに色がついた図を描画し、さらにクラスタリングされたfastaまで出力することができる…

メタゲノムデータを種レベルで検出し割合を計算するMOCAT

公式サイト チュートリアル http://vm-lux.embl.de/~kultima/MOCAT/tutorial.html ダウンロード http://vm-lux.embl.de/~kultima/MOCAT/download.html fetchMGとの違い Taxonomic profiling using mOTUs インストール macOSでは動作しない。cent OSに導入し…

高速なRNA seqのマッピングツール STAR

2019 2/15 動画とbiocondaによる install追加 2020 7/6 コメントとhelp追加 2021 10/9 gzip fastqのオプション追記、12/5 chimera出力について追記 2024/02/20 情報を整頓 STARは高速なRNAのアライメントツール。intron-exonのsplit-alingmentに対応している…

ユーザー定義の変異を再現可能なfastqのシミュレーター NEAT-genReads

2017 8/29追記 2019 4/16 誤字修正 ゲノム解析の検証方法やベンチマーク方法の障害は、サンプルゲノムの突然変異の状況についての「根拠のある真実」がわかっていて完全に検証されている参照データセットがほとんどないことである。さらに、本物のヒトゲノム…

fastq / fastaの操作ツール seqkit

2019 4/15 Githubリンク追加 2019 6/21 seqmit sample コマンド追記 2019 8/7 help追加 2019 8/8 stats追記 2020 3/18 help更新 2021 ツイート追加(対応するバージョンを使っている人は注意) 2016年に発表されたfastqの操作ツール。競合ツールより多機能と…

PanPhlAnによるメタゲノムのプロファイリング

2018 10/30 イントロ修正 PanPhlAnはメタゲノムをstrainレベルで解析するツール。調べるのは遺伝子の有り/無しで、データベースのゲノムと比較することでメタゲムシーケンスしたバクテリアの特定の種に、実際にはどれくらいの多様性があるか(どれくらいのst…

de novo transcriptome向けのアノテーションツール; Trinotate

2018 10/30 コード修正 2019 10/11 インストール追記、関連ツールリンク追記 2019 10/12 help追記、 2020 2/1 間違ったdockerリンク消去 de novo transcriptomeのアノテーションツールとしてblast2GOがよく知られているが、Trinotateというツールが発表され…

Oxford Nanoporeリードのアセンブリ MiniasmとNanopolish

2019 4/4 ヘルプ追記 2019 6/21 文章修正 2019 7/17 コメント追加 2019 7/26 追記 2019 10/14追記 2019 11/5 コマンドに-t <NUM> 追加の修正 2020 3/30 関連ツール追記 MiniasmはPacbioのロングリードやナノポアのロングリードのアセンブルツールで2015年に論文が</num>…