macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

human genome

nf-coreのDeepVariantパイプライン

nf-core/deepvariantより 2017年12月にGoogleブレインチームがDeepLearningをベースにしたVariant Caller, DeepVariantをリリースした。DeepVariantはまずBAMファイルに基づいて画像を構築し、次にDeepLearningの画像認識アプローチを使用してバリアントを取…

生殖細胞バリアントや体細胞バリアントを検出する自動化されたパイプライン Sarek

2021 2/9 タイトル修正 2021 2/12, 2/15コマンド追記 2021 5/16 コメント追記 全ゲノムシークエンシング(WGS)は、精密医療の発展のための研究の基盤技術であるが、WGS解析のためのポータブルで使いやすいワークフローが限られていることが、多くの研究グルー…

(ヒト、マウス、ラット)RNA seqの前処理からリードカウントまで行うスケーラブルなパイプライン SPEAQeasy

2021 1/25 わかりくい説明を修正、タイトル修正 RNAシーケンシング(RNA-seq)は、一般的で広く普及している生物学的アッセイであり、それによって生成されるデータの量は増加している。実際には、生のRNA-seqリードから発現変動遺伝子などの直接的に価値の…

オーバーラップグラフに基づいたde novoゲノムアセンブラ ALGA

2021 1/22 誤字修正 オーバーラップグラフ法に基づいたde novoゲノムアセンブリの手法は非常に少ない。いわゆるde Bruijnグラフアプローチよりも正確な結果が得られると考えられているが、より多くの時間とより多くのメモリを必要とする。オーバーラップグラ…

高速なハプロタイプバリアントコーラー LocHap

Somatic mosaicismとは、単一の生物学的サンプル中の体細胞の一部に体細胞変異が存在することである。その重要性は主に理論的に議論されてきたが、実験的な研究により体細胞モザイクと疾患診断との関連性が明らかになりつつある。本研究では、健康なドナーの…

(主に微生物)代謝モデルのデータベース BiGG Models

BMC Bioinformatics. 2010 Apr 29;11:213 COBRA(Constraint Based Reconstruction and Analysis)フレームワークに基づくゲノムスケールの代謝再構成は、生物の代謝能力を解析し、実験データを解釈するための貴重なツールである。このような再構成や解析手…

ChIP-Atlas

代表的なモデル生物6種(ヒト、マウス、ラット、ミミズバエ、線虫、出芽酵母)から得られた公開されているクロマチン免疫沈降シークエンス(ChIP-seq)とDNase-seqデータ(n>70,000)を完全に統合し、ChIP-Atlas(http://chip-atlas.org)と名付けられたデー…

(ヒト)バリアントの影響を評価する dbNSFP v4

全ゲノムシークエンシング(WES)や全ゲノムシークエンシング(WGS)は、研究や臨床の場でヒトの疾患研究にますます利用されるようになってきている。その結果、健康な人からメンデル病や複雑な疾患を持つ人まで、DNA配列データの津波を目の当たりにするよう…

トランスポーターのデータベース TCDB

膜輸送体は、細胞の分子組成やエネルギー状態を決定するチャネル、キャリア、ポンプ、group translocators、電子輸送体などの複雑なネットワークを形成する多様なタンパク質のグループを構成している(ref.1)。これらのタンパク質は、細胞内の全タンパク質の…

ヒトとマウスのショートオープンリーディングフレーム(sORF)のデータベース MetamORF

ハイスループット技術の開発により、ほとんどの真核生物のRNAにnon-canonicalなショートオープンリーディングフレーム(sORF)が存在することが明らかになった。これらは、種を超えて高度に保存されたユビキタスな遺伝的要素であり、多くの細胞プロセスに関…

複雑な構造多型の分析と視覚化を行う Svpluscnv

ほとんどの腫瘍種において体細胞構造変化(SV)が広く普及しているにもかかわらず、その分子的意味合いについての理解が不十分な場合が多い。SVはその大きさと複雑さが非常に不均一であり、その病原性の役割の解釈を妨げている。ガンの体細胞構造を完全に特…

発現領域を視覚化する vizER

ヒトの遺伝子アノテーションが不完全なままであることを示唆する証拠が増えてきているが、それが異なる組織にどのように影響し、異なる疾患の理解にどのような影響を与えるかは不明である。ここでは、41のヒト組織のGenotype-issue Expression RNAシーケンス…

GATKベストプラクティスに基づいた、RNA seqのバリアントコールを行うnextflowパイプライン CalliNGS-NF

発現情報に加えて、RNAシークエンシング(RNA-seq)データは、分析対象の生物の遺伝子に存在する体細胞変異を取得するために使用することができる。CalliNGS-NFパイプラインは、RNAseqデータを処理して、スモールバリアント(SNV)、SNP、およびsmall INDELs…

コピー数変化(多型)をインタラクティブなプロットで視覚化する reconCNV

コピー数変動(CNV)は、不均衡な構造リアレンジメントの重要なカテゴリーである。ハイスループットなターゲットシーケンスでCNVを検出する方法はますます洗練されてきているが、これらのデータからCNVをインタラクティブかつ動的に可視化するための専用ツー…

性染色体のロングリードソート法 SRY

現在公開されているリファレンスゲノムの多くは、性染色体の配列マップがなく、アセンブルが完成していないのが現状である。近年のロングリード塩基配列解析や集団配列解析の進歩により、従来のような複雑な実験を必要とせずに性染色体のアセンブルが可能と…

(ヒトゲノム)高速かつ精度の高いロングリードのSVコーラー cuteSV

構造変化(SV)とは、欠失、挿入、逆位、重複、転座などのゲノムリアレンジメントで、その大きさが50 bpを超えるものを指す。ヒトゲノム上で最大のdivergencesとして、SV はヒトの疾患(遺伝性疾患やガンなど)、進化(遺伝子欠損やトランスポゾン活性など)…

(ヒトゲノム)ミトコンドリアハプロタイプを検出することでサンプルの汚染を検出する Haplocheck

ヒトのミトコンドリアDNA(mtDNA)は、長さ16.6kbの核外DNAである(Andrews et al). mtDNAは母系を介してのみ継承され、世界的にヒトの母系の系統と女性の(前)歴史的な人口動態パターンの再構築を容易にしている。mtDNAの厳密な母方遺伝は、ハプロタイプ…

リファレンスゲノムのアノテーション情報をターゲットゲノムに移す Liftoff

DNA シーケンシング技術と計算手法の向上により、多くの種の高品質なゲノムアセンブリが大幅に増加している。これらのゲノムの生物学を理解するためには、遺伝子の特徴やその他の機能的エレメントのアノテーションが不可欠であるが、ほとんどの種ではリファ…

ゲノム配列からウィルス配列を同定してアノテーションをつける VIBRANT

細菌や古細菌に感染するウイルスは世界的に豊富であり、ほとんどの環境で宿主の数を上回っている [ref.1,2,3]。ウイルスは、感染時に宿主細胞の代謝状態を再プログラムすることができる義務的な細胞内病原性遺伝要素であり、多様な環境下で毎日20~40%の微…

nextflowを使ったGATK4のバリアントコールパイプライン

2020 5/15 snpEffのデータベース追加方法を追記, step2とlogの写真差し替え、dockerのコマンド追加、補足修正 2020 5/16 出力の写真差し替え、レポート追加 2020 10/11,10/12 インストールコマンド修正 ニューヨーク大 - Center for Genomics and Systems Bi…

(ヒトゲノム)インタラクティブな遺伝子の変異プロットを出力する G3viz

ロリポップダイアグラム は、ガンゲノミクスにおける遺伝子変異のトランスレーショナル効果を可視化し、探索するために広く用いられているグラフィカルな表現の一つである。しかし、使いやすい機能を備えたロリポップダイアグラムツールはまだ不足している。…

(ヒトゲノム)遺伝子の変異プロットを描く Lollipops

2020 4/22 重複した説明を削除 簡潔な可視化は、大量の情報を最小限のスペースで迅速に解釈できるよう提示するために非常に重要である。精密医療における臨床応用は、解釈の時間依存性のため、重要な使用例となっているが、生命科学の分野では可視化の必要性…

バリアントコールのVCFを可視化する VIVA

次世代シーケンシングにより、膨大な量のゲノムデータが生成される。ゲノム情報の量は、研究によって異なる。バリアント検出プロセスでは、さまざまな種類のファイル形式が生成される。シーケンス解析で一般的に使用されるファイル形式の1つは、バリアントコ…

ShinyCNV(立ち上げだけ紹介)

体細胞コピー数変化(CNV)は、ガンの開始、進行および再発において重要である(Caren et al、2010;Mullighan et al、2007;Mullighan et al、2009;Weir et al、2007)。ガンゲノム研究において、高密度一塩基多型(SNP)アレイは、従来の細胞遺伝学的カリ…

vcfをmafに変換する vcf2maf

2020 4/17 画面表示バグ修正, インストール手順修正 vcf2mafはVCFをMutation Annotation Format (MAF)に変換し、各バリアントがすべての可能な遺伝子アイソフォームのうちの1つだけにアノテーションする。VCFをMAFに変換するためには、各バリアントはそれが…

ショートタンデムリピートと隣接する変異をgenotypingする ExpansionHunter

ショートタンデムリピート(STR)はヒトゲノム全体に遍在している。STRの生物学に関する我々の理解はまだ完全には程遠いが、新たな証拠は、STRが基本的な細胞プロセスにおいて重要な役割を果たしていることを示唆している(Gymrek et al、2016; Hannan、2018)…

tumorサンプルのテロメアリピート数を推定する telomerehunter

2020 4/20 誤字修正 テロメアは、真核生物の染色体の末端にある核タンパク質の複合体である。ヒトでは、テロメアDNAは主にノンコーディングのt型(TTAGGG)リピートで構成されているが、c型(TCAGGG)、g型(TGAGGG)、j型(TTGGGG)リピートで構成されています。し…

可変数のタンデムリピート(VNTR)をジェノタイピングする adVNTR

全ゲノムシークエンシングは、臨床パイプラインでメンデルバリアントを同定するために使用されることが多くなってきている。これらのパイプラインでは、より複雑な繰り返し配列のバリアントを無視して、一塩基変異(SNV)や構造変異に焦点を当てている。ここ…

mobile element を検出する Mobster

転移因子(ME)は自律的にコピーしたりゲノム上を移動したりすることができるDNA配列だが、その高度に反復的な配列構造のために検出が困難である。MEは、ゲノム構造を変化させる主要な進化ドライバーであるだけでなく、機能的に重要な領域に挿入され、遺伝子…

公開されている真核生物アセンブリを分析する BlobToolKit

2020 6/15 追記 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入し…