macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2015

gANIを計算するツール ANIcalculator

微生物は数と多様性の両方で生命の樹木を支配しており、その自然分類を困難かつ重要なものにしている。動物では、種は一般に交配可能な生物群と定義されるが(biological species concept)、この定義は無性生物の集合体に直接適用することはできない。結果…

Procaryotesの自動アセンブリパイプライン Mypro

Pos 最近の全ゲノムシーケンシング(WGS)技術のコストの低下は、様々な原核生物のシーケンシングの増加をもたらした。典型的なゲノミクスプロジェクトでは、データマイニングの前にシーケンシングリードを処理する必要がある(Hasman et al、2014; Rhoads e…

MetaBAT

2019 8/28 追記 2019 9/30 metabat2紹介リンク追加 ハイスループットのメタゲノムショットガンシークエンシングは、環境から採取された微生物群集を直接研究するための強力なツールであり、それによって培養から解放され、また培養から生じる可能性のあるバ…

バクテリアのシーケンシングデータ分析ツール GenomePeek

シーケンシングコストが低下するにつれて、バクテリアゲノムの配列が増加している。現在、NCBI(Benson et al、2009; Sayers et al、2009)、SEEDデータベース(Overbeek、Disz&Stevens、2004)には約15,000種類の原核生物ゲノムがあり、約75,000種類のアセ…

Procaryote向けの自動アセンブリパイプライン A5-miseq

ゲノムアセンブリは、rawシーケンシングデータから始まり、スキャホールディングされたコンティグで終わる全データ処理ワークフローからなる。この手順は、アダプタのトリミング、クオリティフィルタリング、エラー訂正、コンティグの作成、アセンブリへのリ…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

ターゲット遺伝子座のリファレンスガイドアセンブリを行う aTRAM2.0

2021 7/21 タイトル修正 大規模なシーケンスからの迅速な標的遺伝子座特異的なアセ​​ンブリは、現在、医学から広範囲の系統学までの応用分野で、生物学科学全体で一般的に使用されている。ターゲットアセンブリ手法は、完全なゲノムのデノボアセンブリと比較…

トランスクリプトームのblast比較結果を統合し、ベン図を描く VennBLAST

ハイスループットシークエンシングは広範な技術となり、進化的研究を含む様々な研究分野でアクセス可能となっている。ゲノムが利用できない生物の転写産物をシーケンスし、注釈を付ける能力は、分子進化の分野における生物学者、特に非モデル生物を含むルー…

CircosをWeb上 で利用できる ClicO FS

2020 7/24 関連文献追記 Circos(Krzywinski et al、2009)(HP)は、ビジュアルデータを環状形式で表現するPerl言語ベースのツールである。ネイティブのCircosソフトウェアは、コマンドラインインターフェイス(CLI)を介して提供されている。ソフトウェア…

メタゲノムアセンブリ結果を可視化してマニュアルビニングを助ける gbtools

ほとんどの環境微生物が難培養性であることを考えると、microbial ecologyの分野では、metagenomicsは全コミュニティの機能を調べる手段に由来していた(論文より Handelsman、2004; Kunin et al、2008; Teeling and Glockner、2012)。研究者は、微生物群全…

ヒトゲノムの統合バリアント検出パイプライン speedseq

2018 8/7 ホストからジョブを投げるようにコマンド修正 2018 8/8 realignコマンド修正 2020 4/15 コマンド記載ミス修正 2022/09/17 タイトル修正 第2世代のDNA配列決定技術の技術的進歩により、全ゲノム配列決定(WGS)データを生成するために必要なコストと…

ハプロタイプフェージングを行う whatshap

2019 3/18 インストールの流れ修正 2019 3/26 誤字修正 2019 11/8 タイトル修正 ヒトゲノムは二倍体であり、すなわち、その常染色体の各々は2コピーである。これらの親のコピーは、異なる一塩基多型(SNPs)の影響を受ける。変異がどちらの染色体由来かアサ…

ロングリードを使い環状DNAかどうか調べる Circlator

2019 2/26 condaインストール追記 デノボアセンブリの課題は、世界初の自動DNAシーケンサーの登場以来ずっと存在していた。初期ゲノムシーケンスデータのアセンブリは、大きく2つの戦略に基づいていた:BAC / YACタイリングまたは全ゲノムショットガン[論文…

SAMTools互換の高速なsam,bam,cram処理ツール elprep

2019 7/28 コマンド修正 2019 8/3 リンク追加 一般にDNA配列解析はマッピングとそれに続く分析からなる(論文 図1)。マッピング段階では、BWA [論文より ref.1]のようなアライメントツールを介して既知の参照ゲノムにマッピングされる。その後、マッピング…

新規にシンテシー解析が可能な SynFind

保存されたシンテニーは、共通のゲノムを共有することによって支持される遺伝子間の推測された相同性関係を指し、生物のすべての領域にわたって広く使用される測定法である(論文より Moreno-Hagelsieb et al, 2001; Engstrom et al, 2007; Heger Ponting 20…

高速なRNA seqのマッピングツール HISAT2

2019 6/18 コマンド追記、6/26 インストール追記、6/28 samtoolsコマンドエラー修正 2020 3/22 help更新、4/16 multiqcとの連携例、4/29 誤解のある表現を修正、8/28 index追記, help更新 2021 1/21、8/26 インストール追記 2024/02/16 インストール手順(py…

メタゲノムから特定の種のリードを得る MetaObtainer

微生物ゲノム研究は通常、実験的限界のために1つの細菌株に焦点を当てる。この種の方法は、少なくとも2つの欠点を有する:(1)微生物の99%以上が未知であり、栽培または単離することができない。 (2)生息地の微生物が互いとその宿主に対して様々な機能的…

バクテリアゲノムアノテーションツール間の注釈を自動比較する BEACON

ゲノムアノテーションは、ゲノム配列中の異なるセグメントの機能を同定して示すために使用され[ 論文より ref.1 ]、多くの下流ゲノム解析の基礎となっている。 真核生物[ref. 2 ]および原核生物[ref. 3 ]のためのいくつかのアノテーション手法(AM)が開発さ…

メイトペア情報を使いスキャホールドの誤りを検出する NxRepair

ゲノムのde novoアセンブリの一般的な方法は、de Bruijnグラフ(論文より Compeau、Pevzner&Tesler、2011)の構築に基づく。最も単純なケースでは、グラフはシングルエンドリードから構成されるが、シングルエンドのリードだけでは、de Bruijnグラフをもつ…

ペアエンドリードを使いミスアセンブリを検出する misFinder

ミスアセンブルを検出するツールにはQuest、GAGEなどがあるが、これらのツールはミスアセンブルとリファンレスの違いを区別せず全て報告する。そのため、ミスアセンブルのみを検出するには通常さらなる工夫が必要になる。 一方、CGALやALE、REAPRはDe novoの…

ロングリードやcontig情報を使いスキャッホールドのギャップを埋める GMcloser

2019 9/4 インストール追記 NGSのリードやアセンブルしたコンティグを使い、スキャッホールドのギャップを埋めるツールがいくつか発表されているが、オーサーらは、これらのツールに起因するアセンブリのエラー率が、デノボアセンブルで起こるエラー率よりも…

複数のアセンブラのコンティグをマージする Metassembler

2019 6/10 追記 2019 6/11 関連ツール追記 ゲノムアセンブリプロジェクトでは、通常、単一の最良のアセンブリを見つけるために複数のアルゴリズムを実行するが、それらのアセンブリには、未開発の場合は補完的な長所と短所がある。 本著者らは、ゲノムの複数…

真核生物のRNAのコード領域を予測するGeneMarkS-T

GeneMarkS-T は教師なし学習でトレーニングされたRNAのタンパク質コード領域を予測ツール。原核生物向けのGeneMarkSを真核生物向けに拡張して作られた。データサイズに寄らず一定の検出率を示すため、データが莫大になるメタトランスクリプトーム解析のコー…

RNA seqのクオリティチェックツール QoRTs

RNA-Seqは特定のバイアス、アーティファクトを受けやすく、 堅牢で包括的なクオリティチェックが重要になる。とくにサンプル調製、ライブラリー作成、またはシークエンシングのエラーは、 予期せぬアーティファクト、バイアスを引き起こす。適切に処理できる…

SNVやRNA edittingに適した高精度なRNA seqのアライナー RASER

RNAのシーケンスデータをゲノムにアライメントする場合、イントロンを跨いでリードをアライメントする必要があるため、リードをsplitしてアライメントできるアライナーが使われる(真核生物のRNA seq)。イントロンは数十kbもある可能性があるので、split-al…

複数ファイルのk-merをカウントし、共通/固有のk-merを抽出する Genome Tester4

2020 12/29 タイトル修正 複数ファイルのk-merをカウントし、共通/固有のk-merを抽出できる Genome Tester4 =>複数ファイルのk-merをカウントし、共通/固有のk-merを抽出する Genome Tester4 GenomeTester4はk-merをカウントしたり、操作するためのパッケ…

TE及び単純反復をDe novoで検出する Red

2020 10/5 インストール追記 技術の急速な進歩により、何千もの種のゲノムの配列が利用できるようになってきている。これらの配列の中には、ゲノムの大部分を構成するリピートが含まれている。そのため、アノテーションを成功させるためには、リピートを正確…

イルミナのエラーコレクションツール QuorUM

QuorUMはMaSuRCAなどにも組み込まれているエラーコレクションパイプライン。 インストール Github https://github.com/gmarcais/Quorum brewで導入できる( macではエラーになったのでubuntu14.4にlinuxbrewで入れた)。 > quorum --help user$ quorum --help …

RNA seqのエラーコレクションツール Rcorrector

2020 8/7 インストール追記 Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレ…

エラーコレクションツール ACE

インストール cent OSに導入した。 Github https://github.com/sheikhizadeh/ACE/ brewで導入できる。 パスが通ったディレクトリに移動しておく。 user$ delly ********************************************************************** Program: Delly This…