macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

human whole genome

集団特異的なリファレンスゲノムを作成するための高速なゲノム研磨ツール JASPER

ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

ロングリードから染色体特異的テロメア長を報告する Telogator

テロメアは、真核生物の染色体末端に見られる繰り返し配列で、多くの細胞で分裂時にその平均長が短くなることから、「体内時計」と考えられている。テロメアの長さの異常は、老化との関連に加え、複数の癌やテロメア短小症候群との関連や、様々な疾患の危険…

公開されている大規模なRNA-seqデータセットを扱う recount3

新しいMonorail解析パイプラインによって一様に処理された750,000以上の一般に公開されているヒトとマウスのRNAシーケンス(RNA-seq)サンプルからなるリソース、recount3を紹介する。データへのアクセスを容易にするために、recount3およびsnapcountのR/Bio…

バリアントコーラー 16GT

16GTは、イルミナ社の全ゲノムおよび全エキソームシーケンスデータ用のバリアントコラーである。16GTは、新しい16の遺伝子型の確率モデルを使用して、一塩基多型と挿入および欠失のコールを単一のバリアントコールアルゴリズムに統合している。36コアのサー…

ハイスループットシーケンシングデータから既知のヒトキメラ配列を迅速かつ正確に同定する ChiTaH

融合遺伝子やキメラは、通常、2つの異なる遺伝子からの配列で構成されている。このような融合配列のキメラRNAは、しばしばガンのドライバーとして機能する。このようなドライバーfusionを特定することは、診断や治療に重要である。DNA-SeqやRNA-Seqなどの次…

DRAGENのCPUのみ使う実装 DRAGMAP

2021 11/27 追記 まだ初期のアルファリリースということですが、DRAGMAPを試してみました。詳しくはGATKのブログを読んで下さい。BWA-MEMとの性能比較では、興味深い結果が提示されています。 GATK blog Introducing DRAGMAP, the new genome mapper in DRAG…

バリアントフィルタリングとポリッシングを行う Merfin

ノイズの多いロングリードから正確なジェノタイピングを行い、コンセンサスの質を向上させるために、リードマッピングやバリアントコーリングの手法が広く用いられている。バリアントコールの精度は、リードの品質、リードマッピングアルゴリズムとバリアン…

nf-coreのDeepVariantパイプライン

nf-core/deepvariantより 2017年12月にGoogleブレインチームがDeepLearningをベースにしたVariant Caller, DeepVariantをリリースした。DeepVariantはまずBAMファイルに基づいて画像を構築し、次にDeepLearningの画像認識アプローチを使用してバリアントを取…

(TCGA)インタラクティブな遺伝子発現解析のためのWebアプリケーション Phantasus

2020 10/25 追記 Phantasusは、視覚的でインタラクティブな遺伝子発現解析のためのウェブアプリケーションである。Phantasusは、ヒートマップの可視化と解析のためのWebベースのソフトウェアMorpheusをベースにしており、OpenCPU APIを介してR環境に統合され…

特定の領域由来のロングリードを高速選抜する selectION

SelectION: Identification of predefined genomic regions in large nanopore DNA London Calling 2017 インストール ubuntu18.04LTSでテストした。 ビルド依存 requires gcc > 5 and the following libraries: boost filesystem boost program_options boo…

vcfをmafに変換する vcf2maf

2020 4/17 画面表示バグ修正, インストール手順修正 vcf2mafはVCFをMutation Annotation Format (MAF)に変換し、各バリアントがすべての可能な遺伝子アイソフォームのうちの1つだけにアノテーションする。VCFをMAFに変換するためには、各バリアントはそれが…

高速なヒトゲノムのアセンブラ Peregrine

初期のヒトゲノムプロジェクトと安価なDNAシークエンシング技術の技術の開発は、学術研究とゲノム情報を使用して人間の健康を改善する産業の両方を進歩させた。それは、遺伝子型と表現型の関連と多くの重要かつ臨床関連のアプリケーションのための貴重な情報…

体細胞コピー数変化イベントを調べるFACETSをワンライナーで実行するcnv_facets

2019 12/27 誤字修正 Cancer Genome Atlas(TCGA)およびInternational Cancer Genome Consortium(ICGC)プロジェクトを含む大規模なシーケンス研究により、腫瘍と正常なサンプルペアの何万もの全ゲノム(WGS)および全エキソーム(WES)が生成された。対立…

RNA seqのバリアントコールにも対応したABRA2

次世代シーケンス(NGS)は、さまざまなアプリケーションで広く使用されるツールになっている。バリアントコールは大きな関心が寄せられている領域であり、RNAへの関心も高まっている。NGSバリアントコールパイプラインの最初のステップの1つは、シーケンス…

ヒトとマウスの様々なアライナー用indexやアノテーションをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 2022/04/19 画像追加 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、そ…

(ヒト向け)matched tumor normal ペアからsomaticとgermlineのCNVイベントを検出する TumorCNV

生殖細胞系コピー数変異(CNV)および体細胞コピー数改変(SCNA)は、ガンにおいて重要な役割を果たすことが示されている。次世代シーケンシング(NGS)技術の急速な発展に伴い、全ゲノムシーケンシング(WGS)は、ガン研究および臨床診療においてゲノムワイ…

(ヒト向け)超高感度なマルチサンプルバリアントコーラー Needlestack

大規模並列シーケンシング、または次世代シーケンシング(NGS)は、従来のSangerシーケンシングと比較してスループットの大幅な増加と低存在量のバリエーションを検出するこれまでにない能力により、遺伝的バリエーションの探索方法に革命をもたらした。シー…

ロングリードのself error correctionやcontigのポリッシングを行う CONSENT

2019 4/16 マッピングの画像追加 2019 7/22 インストール、help追記、エラー修正 2019 9/8 コメント追加 2019 11/11 Segmentation faultのリンク追記 2020 2/11 追記 2020 2/17 追記 2020 3/23 論文更新のツイート追記 2021 1/13 論文引用 第3世代のシークエ…

somaticとgermlineのバリアント検出ツール Scalpel

注: docker イメージのリンクも紹介してますが、テストするとエラーを吐きました。condaを使いlinuxマシンでに導入するのが無難なようです。 SNVsの分析はヒト遺伝学を研究するための標準的な技術となっているが[論文より ref.1]。、DNA配列(indels)の挿入…

CNVのシミュレータ CNV-Sim

CNV-SimはCopy numver variationのシミュレータ。ランダム、または提供されたリストに従って、リードの増幅および欠失が起きる。このツールは2種類のシミュレーション機能を持つ。1つは全ゲノムにおけるCNVシミュレーションで、 CNV-Simは、ARTの機能を利用…

ヒトゲノムの統合バリアント検出パイプライン speedseq

2018 8/7 ホストからジョブを投げるようにコマンド修正 2018 8/8 realignコマンド修正 2020 4/15 コマンド記載ミス修正 2022/09/17 タイトル修正 第2世代のDNA配列決定技術の技術的進歩により、全ゲノム配列決定(WGS)データを生成するために必要なコストと…

アライメントフリーでk-merデータベースから高速にバリアントを検出する FastGT

ゲノム変異の研究には、次世代シーケンシング(NGS)技術が広く使用されている。ヒトゲノムの変異は、通常、配列決定されたリードをマッピングし、次いでgenotypeのコールを行うことによって検出される(論文より ref.1-4)。標準的なパイプラインでは、rawシ…