macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2014

メタゲノムアセンブリをbinningする CONCOCT

ショットガンシーケンシングは、複雑な微生物群集からのゲノムの再構築を可能にするが、全ゲノムを再構築することはできないので、ゲノムの断片をビンに入れることが必要である。 この論文では、CONCOCTを提示する。これは、コンティグをゲノムに自動的にク…

リファレンスフリーで低メモリかつ高速にSNVとsmall indelを予測する DiscoSnp ++

次世代シーケンス(NGS)データは生命メカニズムへの前例のないアクセスを提供する。特に、これらのデータは染色体、個体または種間の遺伝的差異を評価することを可能にする。そのような多型は、農学、環境または医学における多数の用途を有する生物学の多く…

メタゲノムのraw fastqから高速なtaxonomy assignmentを行う FOCUS

微生物は他のどの細胞生物よりも豊富であり(Whitman、Coleman&Wiebe、1998年)、どの生物が存在し、それらが何をしているのかを理解することが重要である(Handelsman、2004)。多くの環境では、微生物群集の大多数は培養できず、メタゲノムは未培養のゲノ…

blast結果を可視化するwebツール Kablammo

The Basic Local Alignment Search Tool (BLAST) は、クエリとデータベース配列との間で共有される類似のサブ配列を迅速に見出す(Altschul et al., 1997)。その用途には、共有された配列の類似性から相同性を推定すること、特徴付けられていない配列に関連す…

植物ゲノムアノテーションwebサービス MEGANTE

ハイスループットシーケンシング技術の出現により、植物ゲノムシーケンシングは加速し、そしてデータは作物改良のために利用されてきている(Bevan and Uauy 2013)。大量の植物ゲノム配列の蓄積は、比較ゲノミクスデータベースの構築(Mihara et al、2010、…

ショート/ロングシーケンシングデータやcontigからVirulence factorを検出するwebツール VirulenceFinder

病原性細菌は依然として公衆衛生に大きな脅威を与えており、病原性細菌蔓延を制限し、感染症の発生を防ぐためには、正確で迅速な診断および分離株の分類が非常に重要である。現在の日常業務では、単離および同定は大部分が臨床微生物学的検査室で行われ、検…

耐性カセットや病原性遺伝子のタイピングを行う SRST2

病原性細菌の迅速な分子タイピングは、公衆衛生疫学、サーベイ ランスおよび感染制御にとって重要である[論文より ref.1,2]。そのような活動の2つの重要な目標は、(1)病原性遺伝子、抗菌性耐性遺伝子または血清型決定因子を含む臨床的に関連する表現型に関…

groopM

微生物群集の機能と進化を理解する能力は、特定の生態系のほとんどの構成種を培養できないことで妨げられてきた(論文より Hugenholtz、Goebel&Pace、1998)。ショットガンシーケンシングの環境DNAへの応用であるMetagenomicsは、この培養のボトルネックを…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

de brujin graphからinversionのブレイクポイントを検出する TakeABreak

構造変化はゲノム変化の重要なソースであり、表現型の変化、遺伝性疾患、進化に関与する可能性がある。集団における構造的変異の程度は、主にNGSのおかげで、最近になって認められているに過ぎない。事実、いくつかのヒト個体のゲノムをシーケンシングするこ…

Structural Variation Engine (SVE)

先日紹介したFusoSVのSVコールパイプラインSVEを紹介する。 Core Frameworks and Extension. Githubより インストール 依存関係が多いためdockerコンテナを使ったランが推奨されている。 Github docker pull timothyjamesbecker/sve > docker run --rm timot…

マッピングツール segemehl

2018 11/5 タイトル修正 近年、短いシーケンシングリードを大きなリファレンスゲノムにアライメントさせる問題はかなりの注目を集めており、これまで様々な異なるアルゴリズムアプローチに基づく、異なる多くのアラインメントツールが発表されている。 EBIの…

webブウラザを使ったゲノムブラウザ PyBamView

次世代シークエンシング(NGS)技術の急速な発展により、幅広い種類のショートリードDNAデータセットがもたらされた。シーケンスアライメントのマニュアル検査は、クオリティ管理の重要な側面である。大部分のNGS解析は一塩基多型(SNP)に焦点を当てている…

ラージゲノムにも対応したcontigのscaffoldingツール BESST

近年のハイスループットシーケンシング(HTS)技術は、低コストで数百万の短いDNA配列(リードと呼ばれる)を生成するため、デノボアセンブリプロジェクトにとって魅力的である。しかしながら、これらのリードは数百bpの長さしかないため、アセンブラ(例え…

review article要約 ラージゲノムのシーケンシング解析

はじめに この記事はレビュー論文の要約です。チェックリスト、または思考を整頓するガイドとして使ってください。ただし、この要約で論文を読んだことにはなりません。時間が許す限り原著論文を読むことをお勧めします。review articleは各段落が一般論で構…

somaticとgermlineのバリアント検出ツール Scalpel

注: docker イメージのリンクも紹介してますが、テストするとエラーを吐きました。condaを使いlinuxマシンでに導入するのが無難なようです。 SNVsの分析はヒト遺伝学を研究するための標準的な技術となっているが[論文より ref.1]。、DNA配列(indels)の挿入…

腸内細菌科(エンテロバクター科)のプラスミド同定ツール PlasmidFinder

プラスミドは、自律複製が可能であり、異なるバクテリア種とクローンとの間で移動可能な二本鎖の環状または線状DNA分子である。既知のプラスミドのほとんどは、抗生物質耐性または病原性遺伝子のようなバクテリア宿主上で陽性選択される表現型を付与するため…

オーバーラップするペアエンドリードをマージする PEAR

2019 5/20 condaインストールおよび引用追記、コメント削除 PEARはオーバーラップするペアエンドリードをマージするツール。フラグメントサイーズがリード長x2より小さい場合、ペアエンドリード間にオーバーラップが存在する。PEARはこのオーバーラップ領域…

リファレンスフリーで家族内変異や病変組織の変異を調べ、数十以下まで候補を絞り込む DIAMUND

追記 4/16 エラーが大量に出たので内容を修正しました。 遺伝性疾患と癌の両方を含む、疾患の原因である突然変異を発見するためのゲノムシーケンシングの使用は、近年爆発的に増加している。全ゲノムシーケンスおよび全exomeシーケンスは、疾患表現型の原因…

高頻度なk-merを効率的にカウントする Turtle

k-merを用いたde Bruijnグラフ構造は今日普及しているゲノムアセンブルの中核であり、多くの方法論で使われている。k-merはCeleraのようなOLCのアセンブルツールでも重複のシードを用いるのに使われている。また、いくつかのエラー訂正ツールは、k-merの頻度…

Roche 454のクオリティトリミングツール QTrim

QTrimは454のトリミングツール。PRINSEQと同等のパフォーマンスを持つとされる。 公式HP http://hiv.sanbi.ac.za/software/qtrim#Installation webサーバー http://hiv.sanbi.ac.za/tools/#/qtrim インストール 公式HPから実行可能なバイナリと454のテストデ…

エラーコレクションツール BLESS2

BLESS、BLESS2はショートリードのエラー補正ツール。BLESSはやや遅いという問題点があった。BLESS2は並列化に対応することで高速化された。またメモリ効率、および精度の要素でもBLESSより改善しているとされる。特に複数のノードが使える条件でランタイムは…

fastq のシミュレーター XS (リファンレスなし)

XSはIon Torrent、Roche-454、Illumina、SOLiDに対応したショートリードのシミュレータ。軽量で依存がないように設計されている。クラウドに向けて時間とメモリに応じていくつかの実行モードを備えている。リファンレスは使わない。塩基はランダム発生され、…

検索可能な圧縮を行う BEETL

多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…

Pacbioのハイブリッドエラーコレクションツール LoRDEC

LoRDECはショートリードを使ってロングリードのエラー補正を行う方法論。ロングリード自信によるエラー補正は深いカバレッジを必要とするためコストが高くなるデメリットを持つ。 LoRDECは低コストで高い信頼性をもつショートリードを使い、Pacbioのロングリ…

エラーコレクションツール lighter

インストール cent OSに導入した。 Github https://github.com/mourisl/Lighter git clone https://github.com/mourisl/Lighter.gitcd Lighter/make./lighter #動作確認 ghter]$ lighter Usage: ./lighter [OPTIONS] OPTIONS: Required parameters: -r seq_f…

異なるk-merの割合を計算してエラー率推定やゲノムサイズ推定ができる KmerStream

2019 5/27インストール方法追記 KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用することができる。サンプリン…

数百から数千のバクテリアゲノムの同時比較を行うHarvest

Harvestは数百、数千のバクテリアのゲノム比較を高速に実行する方法論。同じ種のほぼ同一なゲノムの比較を対象としている。labo-strainのような非常に似ているがわずかに変異が出現したような株同士のマルチプルアライメントを行い、バリアントの出現パター…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

並列化で高速に動作するシミュレーター SlnC

SlnCは最も多い変異であるSNV、indel、CNVをシミュレートできるNGSのリードシミュレーションツール。マルチコアに対応しており、ARTのようなツールと比較して高速にカバレッジのディープなデータセットを発生させることができる。 ダウンロード 依存 GSL (ht…