macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

human genome

NCBI GEO のRNA-seqデータを分析する GREIN

RNA-seqデータセットをGene Expression Omnibus(GEO)およびSequence Read Archive(SRA)のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新し…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

EnsemblのGenomic feature座標変換機能(CrossMap)

2019 8/22 リンクミス修正 Ensemblのゲノム座標変換ツールを紹介する。オンラインで使用できる。 使い方 Ensembl Tools https://asia.ensembl.org/info/docs/tools/index.html Assembly Converterを選択する。 またはEnsemblのモデル生物ゲノムページからCon…

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

2020 3/14 動画追加 2020 9/30 論文引用追加 2022/02/04 v0.9 2022/06/08 アップデートに伴いコマンド修正, help更新 ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコス…

elPrep 4

2020, 2021 9/17 追記 elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプライ…

ヒトとマウスの様々なアライナー用indexやアノテーションをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 2022/04/19 画像追加 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、そ…

de novo transcriptome解析のクラスタリングとclosely rellatedな種の情報を用いたアノテーションを行う Grouper

シーケンシング技術の進歩により、モデル生物の範囲を超えてトランスクリプトームを効率的かつ正確に探索することが可能になった(Ekblom and Galindo、2011; Marioni et al、2008)。トランスクリプトームシークエンシングは、高品質のリファレンスゲノムを…

ヒトのガン原遺伝子/腫瘍抑制遺伝子の変異を視覚化するwebツール Mutplot

シーケンシング技術開発はガン研究に革命をもたらした。約20年に及ぶ発展後、次世代シーケンシング(NGS)は速くて手頃な価格になっている。それは精密医療を臨床の現実にした。 NSGは、臨床現場での治療法を個別化し、研究情報を広げるための包括的なビッグ…

(ヒト、マウス向け)GO term enrichment解析を行う GOnet

ゲノムワイド研究のアウトプットは、通常、共有の発現パターンを示す遺伝子(またはそれらのタンパク質産物)のリストである。例えば、これらは、疾患の有無にかかわらずドナー群において差次的に発現される遺伝子、または生物学的サンプルの特定の画分にお…

様々なデータベースを使ってヒトミトコンドリア変異のアノテーションを行う hmtnote

2019 6/11 データベース追記 HmtNoteは、VCFファイルからヒトのミトコンドリアのバリアントにアノテーションを付けるためのPythonパッケージである。バリアントは、基本、相互参照、変動性、予測のサブセットにグループ化された幅広い情報を使用してアノテー…

(ヒト向け)matched tumor normal ペアからsomaticとgermlineのCNVイベントを検出する TumorCNV

生殖細胞系コピー数変異(CNV)および体細胞コピー数改変(SCNA)は、ガンにおいて重要な役割を果たすことが示されている。次世代シーケンシング(NGS)技術の急速な発展に伴い、全ゲノムシーケンシング(WGS)は、ガン研究および臨床診療においてゲノムワイ…

(ヒト向け)超高感度なマルチサンプルバリアントコーラー Needlestack

大規模並列シーケンシング、または次世代シーケンシング(NGS)は、従来のSangerシーケンシングと比較してスループットの大幅な増加と低存在量のバリエーションを検出するこれまでにない能力により、遺伝的バリエーションの探索方法に革命をもたらした。シー…

SRAのRNA seqデータを素早く比較・分析する Digital expression explorer 2(手持ちのデータにも対応)

2021 1/9 ツイート追記 10年前の最初の記述以来、RNAシーケンス(RNA-seq)はトランスクリプトームにおける強力な方法となり、非常に正確な遺伝子発現の定量を可能にした[ref.1]。シークエンシングのコストが下がるにつれて、RNA seqのデータは科学文献でよ…

リファレンスなしでnanopore Direct RNA seqのリードの向きを予測する ReorientExpress

ロングリードシークエンシング技術は、あらゆる種からのトランスクリプトームの体系的な調査を可能にする。ただし、機能評価には5 'から3'への方向を正しく決定する必要がある。 complementary DNA(cDNA)ライブラリーのシーケンシングは、一般に多数のリー…

ラージゲノムにもスケールする高速なドラフトゲノム配列polishingツール ntEdit

2019 5/17 論文引用、タイトル修正 2020 10/9 コマンド修正 2021 9/15 インストール手順追加 2022/06/05 condaインストール追記 この10年間で、次世代シーケンシングテクノロジはスループットを大幅に向上させた。例えば、今日では、20 Gbpの針葉樹ゲノムの5…

ノイズを除去しながらsmall /large cohortsのgenotypingを行う smoove

smooveは既存のソフトウェアをラップし、構造変異のコールやジェノタイピングを簡単にするため、いくつかのフィルタリングを追加している。フィルタリングにより、smooveは低レベルのノイズを示すスプリアスなアライメントシグナルを削除し、recallを向上さ…

ロングリードのself error correctionやcontigのポリッシングを行う CONSENT

2019 4/16 マッピングの画像追加 2019 7/22 インストール、help追記、エラー修正 2019 9/8 コメント追加 2019 11/11 Segmentation faultのリンク追記 2020 2/11 追記 2020 2/17 追記 2020 3/23 論文更新のツイート追記 2021 1/13 論文引用 第3世代のシークエ…

cell free DNAサンプルのSVを検出する SViCT

精密腫瘍学における現在の課題は、患者における腫瘍の進行を追跡する能力である(例えば治療への反応)。これに対する古典的なアプローチは、異なる時点で組織生検を実施することであろう。これは高価で時間がかかるプロセスであり、そしてこれは侵襲的処置…

ロングリードを使ってMobile elements挿入を検出する rMETL

2019 2/19 流れ修正 Mobile element insertion(MEI)は、ヒトゲノムにおける構造変化(SV)の約25%に相当し、これは主にAlu、L1およびSVAファミリーなどのアクティブなmobile elementsによってもたらされる(Stewart et al、2011)。これまでショートリー…

fusion geneを検出する FuSeq

染色体再編成の一種である遺伝子融合は、発ガンにおいて重要な役割を果たすことがわかっている[ref.1、2]。それはキメラタンパク質の増加、ガンの危険性および腫瘍の表現型と密接に関連しており、それらはすべて臨床解釈の可能性を秘めている[ref.2]。融合遺…

KrakenUniq

2019 1/17 エラー修正 2024/02/14 追記 メタゲノミクス分類手法は、データセット内の各リードに taxonomic identityをアサインすることを試みる。メタゲノミクスデータにはしばしば何千万ものリードが含まれているため、分類は、通常、長さk(k-mers)の短い…

低コスト且つ短時間で行える高分子量gDNA抽出プロトコル

2019 1/7 タイトル修正 複雑なゲノムの新規シーケンシングは、高品質のリファレンス配列を求める研究者にとっての主要な課題の1つである。 多くのde novoアセンブリはショートリードに基づいており、断片化されたゲノム配列を生成する。 リード長が10 kbを超…

インタラクティブなRNA seq解析webアプリケーション iDEP

2019 5/23 tweet追記、9/26 動画追加、11/30 ツイート追記、12/22 統合TVリンク追加 2020 2/2 8章補足資料リンク追加、12/15 ツイート追加 2024/04/04 論文追加引用 RNAシークエンシング(RNA-Seq)[1]は、ゲノムワイドな発現解析のための日常的な技術とな…

NCBI FTPサーバからゲノム配列をダウンロードする ncbi-genome-download

2019 11/8 コマンドのミス修正("Escherichia coli" => "Escherichia") 2019 12/19 関連ツールリンク追加 タイトルの通りの機能をもつスクリプト。 インストール mac os10.13のminiconda2-4.0.5環境でテストした。 依存 本体 GIthub #anaconda環境ならconda…

Linked readを使ってクロモソームスケールのアセンブリを行う ARKS

ARCSより 10×Genomics(10×G、Pleasanton、CA)のChromiumシークエンシングライブラリー調製プロトコルは、Illuminaシーケンシング(San Diego、CA)ベースで長いDNA断片上にショートリードとバーコード情報を提供しローカライズさせる。したがって、高スル…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

バリアントコール結果を可視化して、素早くバリアントフィルタリングを行うVIPER

次世代シーケンシング(NGS)の開発により、ゲノムシーケンシングは多くの研究分野、特にがん研究に関連する分野(Shen et al。、2015)に適用可能となった。異なるスケールで変化を検出するため多くのツールが開発されている。例えば、GATK(McKenna et al…

複数のSVコール結果をマージする FusorSV

欠損、重複、挿入、逆位、コピー数変化、転座などの構造変化(SV)は、ヒトの遺伝的多様性の最も重要な決定因子の1つである。 1000ゲノムプロジェクト(1000GP)などのコンソーシアムの取り組みは、典型的なゲノムが2100〜2500のSV(> 50bp)を含み、SNPの約…

ハイブリッドアセンブリのためのアライメントフリー scaffolding graph構築ツール Fast-SG

2018 10/26 タイトル修正 ゲノム全体のデノボアセンブリの主要な課題は、リピートを解決することである[論文より 1,2]。リピートは、ゲノムの複数の位置で生じるほぼ同一のゲノム配列に対応する。この課題に対処するために、主に2つのタイプのアプローチが提…

複数のSVコーラーを動かし、結果を統合する Parliament2

2018 10/26 エラー修正 2018 10/28 エラー修正 2019 3/2 追記 2019 6/11 twitter追記 2019 7/1 dockerインストールをlatestタグに修正=>エラーがあったため0.1.17に戻した 2019 12/18 説明微修正 2020 12/22 論文引用 構造変異(SV)は、ゲノムの大きな(50b…