macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017

CGDV

次世代シークエンシング(NGS)技術の進歩により、前例のない量の異なる形式のデータが生成されている。大規模なNGSデータの解釈は複雑で困難である。可視化はNGSデータを解釈する手段の1つであり、データ分析において重要な役割を果たしている。円グラフは…

メタゲノム分析サーバ CoMet

Metagenomicsは、人間の腸[論文より ref.1,2]、土壌[ref.3]および海水表面[ref.4]を含む様々な環境における微生物の動態の培養に依存しない研究を可能にした。メタボノミクスは、直接サンプリングと微生物の遺伝物質のハイスループットショットガンシーケン…

k-tuplesに基づきビニング結果を改善する d2SBin

メタゲノミクスシーケンシングは、微生物群集の深い洞察を提供する[論文より ref.1]。メタゲノミクスデータ内の分類学的構造を調べるための重要なステップは、アセンブリされたコンティグをビン(bins)と呼ばれる別個のクラスターに割り当てることである[re…

クラスタを自動で決めてビニングする BinSanity

2019 4/25 誤字修正 2019 7/6 インストール追記 微生物の生態学に関する研究は、微生物の単離と培養が困難であることによるボトルネックを経験することが普通である(論文より Staley&Konopka、1985)。実験室環境でほとんどの生物を培養することの困難さの…

K-mer分析ツール KAT

2019 5/15 リンク、condaインストール追加 2019 5/16 タイトル修正 2020 9/27 help更新 ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGS…

様々なインフォマティクスツールを簡単に実行できるサイバー環境 CyVerse

2019 1/10 追記 Cyberinfrastructureは、直訳するとサイバー空間のインフラとなる。計算科学の分野では大規模な計算化学の課題に対する解決策を提供するもの、というような意味で使われている(wiki)。CyVerseはこのCyberinfrastructureを提供する、様々な…

NGSデータから素早くバクテリアの分析を行う MICRA

ハイスループットシーケンシング(HTS)技術は多くの微生物学的問題に対処するための費用対効果の高い便利なアプローチとして浮上し、この分野を大きく変えている。完全なゲノム情報にアクセスすることは、微生物学における基礎研究に革命をもたらし、例えば…

倍数体のfractionation biasを視覚化する FractBias

全ゲノム重複(WGD)などの倍数性事象は、単一の生物体内に2つ以上のゲノムコピーを作成する。重複(サブゲノム)に由来するホモロガスな染色体の全セットは、遺伝子が相同染色体の1つからlossするfractionationと呼ばれる過程で遺伝子欠損を受ける(Langham…

GUIで操作できるVCFのフィルタリング・分析ツール VCF.Filter

次世代シークエンシングは疾患関連遺伝子変異体の発見を容易にし、ルーチンの臨床診療における遺伝子診断に広く使用されている。Variant call format(VCF)は、医療遺伝学の研究および診断からの遺伝子変異データを報告するためのコミュニティ標準となって…

VCF / BCFの高速なパーサ cyvcf2

2019 7/27 condaインストール追記 VCF形式(論文より Danecek et al、2011)は、DNAシーケンスの研究で観察された遺伝的変異を表すためのスタンダードである。 VCF形式の強みは、変異の位置、各遺伝子座におけるシーケンスされた個体の遺伝子型、ならびに広…

変異の地理的分布を描画する GGVブラウザ

Genetic variant の重要な特徴の1つは、その地理的分布である。地理的分布は、対立遺伝子が最初に出現した場所、それがどのようなpopulationsで広がっているのか、ならびにmigration、遺伝的浮動(wiki)、および自然選択がどのように作用したかを明らかにす…

Genomic islandsを検出し視覚化する IslandViewer4

ゲノムアイランド(GIs)は、一般に、バクテリアゲノムまたはアーキアゲノムにおける水平伝達が起源の遺伝子のクラスターとして定義される(wiki)。GIはゲノム進化の主要な推進因子であり、ニッチ(論文より ref.1,2)内のバクテリアおよびアーキアの適応度…

Pacbioのロングリードアライナー HISEA

デノボゲノムアセンブリは、リファレンスゲノムを使用せずにシーケンシングリードから生物のゲノム全体を再構築する。ハイスループットのNGS技術は、微生物および真核生物ゲノムの反復領域の大部分よりもはるかに小さい、数百塩基対の短いリードを生成する。…

ロングリードのドラフトアセンブリからコンセンサス配列を出力する Racon

2018/12/21 anacondaとtwitterリンク追記 リンクミス修正 2019 3/6 minimap2に変更, 6/12 関連ツール追記, 6/13 関連ツール追記, 7/23 コードエラー修正、ショートリード使用例追記, 7/24 ループ用スクリプト追加、解析例追加、help更新, 7/29 追記 2022/04/…

高速なロングリードのスプリットアライナー LAMSA

Illumina のSynthetic Long-Read(http://www.illumina.com/technology/next-generation-sequencing/long-read-sequencing-technology.html)、PacBio Single Molecular Real-Silence(HTS) (Eid et al、2009)およびOxford Nanopore Technologies(Eisens…

高速なRNA seqのマッピングツール DART

近年の次世代シーケンシング(NGS)プラットフォームの出現により、大量並列cDNAシークエンシング(RNA-Seq)技術は、発現の高分解能測定および低量の転写産物の検出における高感度を提供するもう一つの強力なツールとなっている。 RNA-Seqは、事前の遺伝子…

バクテリアをstrainレベルで検出する StrainSeeker

病原性細菌の検出には、細菌病原体を迅速に同定する必要がある。このために、通常、病原体は単離され、PCRや全ゲノム配列が行われる。分子タイピングの主な目標の1つは、病原体をクローン群に分類することである。なぜなら、同じ種の系統は宿主に対して大き…

bamの分析に使うバイオインフォマティクスのツールキット goleft

2020 3/15 インストール追記、help更新 2020 4/19 追記 goleftはMIT licence下で提供されているバイオインフォマティクスのツールキット。GO言語で構築されている。 インストール Github リリース(リンク)からosx向けバイナリをダウンロードできる。パスの…

リファンレンスガイドのトランスクリプトのアセンブリツール Scallop

2020 2/5 condaインストール追記 Scallopは、リファンレンスガイドのトランスクリプトのアセンブルツール。 マルチエキソンの転写物や低発現の転写物を組み立てる際の高い精度を特徴とする。ヒトRNA-seqサンプルでは、ScallopはStringTieおよびTransCombより…

超高速にRNA seqのリードカウント(定量)を行う salmon

2019 2/15 動画リンク追加 2020 4/19 インストール追記, help更新 2020 4/29 論文アブスト追記 RNA-seqリードからトランスクリプト の豊富さを定量化する軽量な手法であるSalmonを紹介する。Salmonは、新しい二相並列推論アルゴリズムと特徴量の多いバイアス…

エラーコレクションツール FMOC

FMOCは(bwaやbowtieも使っている)FMインデックスを使ったエラー補正の方法論。ハイクオリティなデータセットであるなら、エラー補正能の感度は高いとされる。計算にかかる時間はKarectと同等(karectリンク)。 インストール cent OSに導入した。 本体 Git…

RNAseqのロングリードのアライメントの評価ツール RNAseqEval

ロングリードを使ったRNA seqはまだ情報が少ない。Evaluation of tools for long read RNA-seq splice-aware alignment.というタイトルのこの論文では、PacBioとONT Minionを使い、エラーの多いロングリードがアライナーの種類によってどう扱われれるのか、…

ABySS 2.0アセンブラ

2022/12/27更新 ABySS1.0はヒトゲノムのアセンブルも可能であったが、SOAPdenovoなどと同様600GB以上のメモリを必要とするなどコンピュータ負荷が高い問題があった。AByss2.0は一桁以上メモリ要求量を減らし、より効率的にアセンブルが行えるように工夫され…

アライメントフリーでk-merデータベースから高速にバリアントを検出する FastGT

ゲノム変異の研究には、次世代シーケンシング(NGS)技術が広く使用されている。ヒトゲノムの変異は、通常、配列決定されたリードをマッピングし、次いでgenotypeのコールを行うことによって検出される(論文より ref.1-4)。標準的なパイプラインでは、rawシ…

ロングリードのセルフエラーコレクションツール LoRMA

LoRMAはPacbioなどのロングリードのエラーコレクションツール。ロングリードのエラーコレクションは、ショートリードを使ったハイブリッドなエラーコレクション法とロングリード自身を使ったエラーコレクション法が報告されている。LoRMAは後者に属する方法…

高速なk-merカウントツール KMC3

2019 9/11 インストール追記 KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピン…

k-mer出現頻度を高速計算するntCard

2019 5/29 インストール追記 DSK、KmerStream、Khmer、kmerGenieなどより高速に動作するk-merカウントの方法論。原理は大きく異なるが、論文中での上記ツールとの比較では、kmerGenieより100倍以上高速に処理できている。 インストール brewやcondaでインス…

アセンブル結果の分析およびマージを行う CAMSA

2019 6/11 インストール追記、タイトル修正 ドライの計算技術およびウエット実験技術を利用して、ドラフトゲノムからゲノムを再構築する様々な方法が存在するが、それらはアセンブリの一部のみを生成する。したがって、異なる方法によって作製されたアセンブ…

ハイブリッドアセンブリにも対応したショートリードアセンブラ Unicycler

2019 追記、 dockerリンク追加、help all追加、コメント追記 2020 help更新、追記 2021 2/25 誤字修正、5/9 ツイート追加 2022 1/25 v5に対応してインストール手順を修正、02/22, 09/21 インストール手順を修正 2023/07/11,12 追記 2024/02/07, 11追記 現在…

シュードゲノムのシミューレーター Simulome

Simulomeは2017年に発表されたbacteria向けの遺伝子のシミュレートツールである。gene情報を与えることで、標準では一部の遺伝子に限定してシミュレートする。具体的には、遺伝子の長さの分布を調べ、その平均と標準偏差から遺伝子のサンプリングをお行い、…