macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018-11-01から1ヶ月間の記事一覧

ゲノムスキミングサンプルから種を同定する Skmer

環境サンプルの分類学的多様性を迅速かつ安価に研究する能力は、急速な気候変動と生物多様性の変化が起きているこの時代において非常に重要である。現在選択されている分子技術は、(meta)Barcoding[論文より ref.1- 3]である。伝統的な(meta)Barcodingは…

アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行う ClipAndMerge

ClipAndMergeはAlexander PeltzerさんがGithubで公開されている、アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行ってくれるツール。ワンライナーでマージしたfastq出力を得ることができる。 インストール mac os10.14のminico…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

アセンブリのグラフを可視化し、アセンブリの評価・分析を助ける SGTK

2018 11/27 誤字修正 Scaffoldingはすべてのゲノムアセンブリパイプラインの重要なステップである。scaffoldingにより、メイトペアライブラリやロングリードなどのさまざまなタイプのリンケージ情報を使用してコンティグをより長い配列にアラインできる。 こ…

バリアントコール結果を可視化して、素早くバリアントフィルタリングを行うVIPER

次世代シーケンシング(NGS)の開発により、ゲノムシーケンシングは多くの研究分野、特にがん研究に関連する分野(Shen et al。、2015)に適用可能となった。異なるスケールで変化を検出するため多くのツールが開発されている。例えば、GATK(McKenna et al…

非相同な領域をマスクしてアライメントの誤りを防ぐ PREQUAL

2018 12/02 mafftコマンドの誤り修正 系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化で…

SRA Toolkitのfastq-dumpを並列実行して高速化する parallel-fastq-dump

NCBIのfastq-dumpはリソース(ネットワーク、IO、CPU)が速くても、時には非常に遅くなることがある(Githubのprotipを参照)。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション(-Nと-X)があるため、このツールparallel-fastq-dumpは作業を要…

Smith-Watermanのアライナー swalign

インストール mac os10.14の miniconda2-4.3.14環境でテストした。 本体 Github #Anaconda環境でcondaを使い導入conda install -c bioconda swalign > swalign $ swalign Simple Smith-Waterman aligner Usage: swalign {options} ref query Reference and q…

all vs allでgANIを計算する pANIto

ANI

インストール mac os10.12で動作テストを行った。 ビルド依存 Ensure you have a standard development environment installed (e.g. gcc, automake, autoconf, libtool). 本体 Github #homebrewで導入できるbrew install tseemann/bioinformatics-linux/pan…

multi-FASTA alignmentからSNPを抽出する SNP-sites

次世代シーケンシング(NGS)技術は、 Single Nucleotide polymorphism(SNP)発見のためにゲノムを大規模にリシーケンシングすることを容易にした。そのようなプロジェクト中に発見された何千ものSNPは、生物学的解釈および計算解析のためにいくらかの困難…

de brujin graphからinversionのブレイクポイントを検出する TakeABreak

構造変化はゲノム変化の重要なソースであり、表現型の変化、遺伝性疾患、進化に関与する可能性がある。集団における構造的変異の程度は、主にNGSのおかげで、最近になって認められているに過ぎない。事実、いくつかのヒト個体のゲノムをシーケンシングするこ…

FASTAアライメントからSNP distance matrixを出力する snp-dists

snp-distsは、Torsten Seemannさん (GIthub) がGithubで公開されている、配列間のSNP数を計算して、行列出力するツール。 If you also want a SNP distance matrix from the alignment, I wrote snp-dists to match: https://t.co/CAM04kDSBP — Torsten Seem…

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

2019 7/5 インストールエラー修正 、twitter追記 2020 1/5 twitter追記、2/4 twitter追記、2/20 コマンド修正、2/27 help更新, コマンド修正、5/5 twitter追記 2022/04/15 コマンド例を追加 sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作す…

移動履歴を学習し、移動をナビゲートする autojump

2018 11/17 分かりにくい文章を修正 autojumpは、これまでの移動結果をウエイトをつけて記憶し(学習)、補完機能によって移動を助けたり、ファイラーへの表示を助けるcdのパワーアップ版コマンド。 wiki https://github.com/wting/autojump/wiki autojumpに…

de bruin graphにリードをマッピングする BGREAT

2018 11/22 ポスターlink追加、誤字修正 次世代シーケンシング技術(NGS)は、シーケンシングされたゲノムの生成を大幅に加速した。しかしながら、これらの技術は、依然として染色体当たり単一の配列を提供することができないままである。代わりに、それらは…

アセンブリ配列を使って全ゲノムMLST (wgMLST) を行い、アレルプロファイルから系統を比較・再構成する fast-GeP

2018 11/16 tips追記 2019 3/9 docker pullリンク追記 2019 11/8 誤字修正 2020 4/6, 4/7 実行手順追記 2022/07/21 コマンド修正 Multilocus sequence typing(MLST)などの遺伝子ベースのタイピング法は、バクテリアpopulationsのゲノム研究のための「ゴー…

(ウィルス) コドンを考慮し、フレームシフトエラーに強いアライメントツール VIRULIGN

多くのウイルス性病原体、特にRNAウイルスは、宿主内および宿主間で急速に進化しており、変化する状態への適応のマーカーがそれらのゲノムにおいて検出され得る(Lemeyら、2006)。ウイルス遺伝子型からの構造、機能および表現型予測は、ウイルス感染の薬物…

Freiburg RNA tools

RNA生物学は分子生物学および生物医学研究における重要なtopicである。biological systemsにおけるRNAの機能は e.g., 病気のプロセスに関するイノベーション(1)からCRISPR-Casに基づく最近の遺伝子編集のイノベーション(2,3)に至るまで、複雑で範囲が広…

HIVディープシーケンシングのマッピングとバリアントコールパイプライン hivmmer

現在、いくつかの次世代シーケンシングマシンが病原体およびウイルスの研究に使用されている(Chabria et al、2014; Quin ones-Mateu et al、2014)。過去20年間に開発された多くの次世代シーケンシングプラットフォームおよびアプローチのうち、イルミナの…

既知変異を保護しながらロングリードRNA seqのエラーを訂正する TranscriptClean

従来のショートリードRNAシークエンシングは、様々な用途における遺伝子発現を定量するために広く使用されている。ショートリードリードは正確で費用効果が高いが、一般に数キロベース長ある全長哺乳動物アイソフォームを解決する能力が欠けている(論文より…

GenomeUPlot

構造変化(SV)を有するサンプルの全ゲノムシーケンシング(WGS)データでは、そのような異常をシンプルなプロットで視覚化する必要性を生じさせる。 WGSデータの従来の2次元表現は、円形または線形レイアウトを頻繁に使用する。これらの表現にはいくつかの…

Structural Variation Engine (SVE)

先日紹介したFusoSVのSVコールパイプラインSVEを紹介する。 Core Frameworks and Extension. Githubより インストール 依存関係が多いためdockerコンテナを使ったランが推奨されている。 Github docker pull timothyjamesbecker/sve > docker run --rm timot…

複数ゲノムを比較し、結果をインタラクティブに視覚化する AliTV

2018 11/12 リンクエラー修正 2019 3/9 分かりにくい部分を修正 過去10年にわたるショートリードシーケンシング、ロングリードシーケンシングおよびアセンブリの進歩(Salzberg et al、2011; Chin et al、2013; Hackl et al、2014)は、全ゲノムシーケンシン…

アセンブリ配列やゲノムから遺伝子配列をblast検索できるwebツール SimpleSynteny

異なる生物ゲノムの保存されたシンテニーのパターンを理解することは、分子生物学の分野における中心的な事業である。元々synteny(以後シンテニー)は細胞遺伝学によって定義され、単一の染色体上に位置する2つ以上の遺伝子座の存在を言及した(論文より re…

複数のSVコール結果をマージする FusorSV

欠損、重複、挿入、逆位、コピー数変化、転座などの構造変化(SV)は、ヒトの遺伝的多様性の最も重要な決定因子の1つである。 1000ゲノムプロジェクト(1000GP)などのコンソーシアムの取り組みは、典型的なゲノムが2100〜2500のSV(> 50bp)を含み、SNPの約…

QuasiRecomb

次世代シークエンシング(NGS)技術は、以前はあまりにも労働集約的であると考えられていた実験を日常的な作業に変えた(Metzker、2010)。 NGSの1つの用途は、genetic diversityを定量化するために遺伝的にheterogousなpopulationsのシーケンシングである。…

mixed sampleの多様性を見積もる ShoRAH

ディープシークエンシングや次世代シークエンシング(NGS)と呼ばれる新しい世代のハイスループットDNAシークエンシング技術の出現により、基礎的、応用的、臨床的研究における新しい実験的アプローチの扉が開かれた。 NGSによって生成される膨大な量のデー…

マッピングツール segemehl

2018 11/5 タイトル修正 近年、短いシーケンシングリードを大きなリファレンスゲノムにアライメントさせる問題はかなりの注目を集めており、これまで様々な異なるアルゴリズムアプローチに基づく、異なる多くのアラインメントツールが発表されている。 EBIの…

ハプロタイプベースのバリアントコーラー octopus

2019 4/16 誤字修正 2020 4/15 インストール追記 2021 4/8 論文引用 ハプロタイプベースのアプローチは、生殖系列のバリアントをコールするための選択方法として浮かび上がってきた。なぜなら、これらの方法は、リードマッパーからのアライメントエラーに対…

シーケンシングデータのハプロタイプを可視化し、リードを分類する HapFlow

2018 11/3 誤字修正 2019 3/18 freebayes追記 ハイスループットシーケンシング技術の出現により、バクテリア集団のシーケンシングのような新しい実験的アプローチが可能になった。感染は、しばしば同じ種の複数の株を含んでおり(Darch et al、2015; Taylor …