macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

RNA seq

RNA seqデータの正規化を行いアセンブリ負荷を軽減する ORNA

2019 5/17 誤字修正 シーケンサのスループットの増加および価格の低下に伴い、高カバレッジシーケンシングデータセットの生成は日常的になっている。これは、ゲノムおよびトランスクリプトームのデノボアセンブリのためのいくつかの異なるアプローチの開発を…

SRAのRNA seqデータを素早く比較・分析する Digital expression explorer 2(手持ちのデータにも対応)

10年前の最初の記述以来、RNAシーケンス(RNA-seq)はトランスクリプトームにおける強力な方法となり、非常に正確な遺伝子発現の定量を可能にした[ref.1]。シークエンシングのコストが下がるにつれて、RNA seqのデータは科学文献でより一般的になりつつある…

genome trackを可視化する svist4get

次世代シークエンシングは、生命科学の複数のハイスループットな方法を生み出した。その多くは、既存のゲノムアセンブリへのショートリードのマッピングに基づいている。マッピングされたリードの密度および計算により得られたゲノムシグナルトラックの可視…

スプライシングジャンクションを上手く処理できるエラーの多いロングリードRNA seqのアライナーdeSALT

RNAシークエンシングはトランスクリプトームを特徴付けるための基本的なアプローチとなっている。正確な遺伝子構造を明らかにし、遺伝子/転写産物の発現を定量できる[ref.1-5]、さらにバリアントコーリング[ref.6]、RNA edit/ng解析[ref.7 - 8]、遺伝子融合…

複数のtranscritome情報(gtf)をマージする TACO

ハイスループットRNAシークエンシング(RNA-Seq)により、トランスクリプトームの詳細な理解が可能になった(ref.1–3)。手動および自動システムによる high fidelityな遺伝子モデルアノテーションの試みは、主にロースループットシークエンシング法(ref.4–…

illuminaのショートリードシミュレータ Sandy(RNA seqにも対応)

Sandyは、与えられたfastaファイルからシングルエンド/ペアエンドのリードを生成するシンプルなバイオインフォマティックツールである。多くの次世代シーケンシング分析は、実際には正確には満足されていない仮説モデルおよび原理に依存している。ポジティブ…

fusion geneを検出する FuSeq

染色体再編成の一種である遺伝子融合は、発ガンにおいて重要な役割を果たすことがわかっている[ref.1、2]。それはキメラタンパク質の増加、ガンの危険性および腫瘍の表現型と密接に関連しており、それらはすべて臨床解釈の可能性を秘めている[ref.2]。融合遺…

共通 / 非共通の遺伝子リストなどをベン図やヒートマップで視覚化する intervene

次世代のシークエンシングベースのハイスループットアッセイによって生成されたトランスクリプトームデータ、ゲノムデータ、およびエピゲノムデータの効果的な可視化は、大きな関心の対象となっている。そのようなアッセイによって生成されたデータセットの…

pblat: マルチスレッドに対応したblat

Blat [論文より ref.1 link]は、DNA、RNAおよびタンパク質配列をリファレンスゲノムにマッピングするように設計された配列アラインメントツールである。これは一般に、リファレンスゲノム内の配列の検索、closely relatedな種のゲノムからの相同配列の発見、…

植物RNA seqシーケンシングデータからvirusリードを検出する kodoja

Kodojaはk-merプロファイリングを使用してRNA-seqまたはsRNA-seのfastq/fasta生データからウイルス配列を特定するツール。 k-merを用いた系統分類ツールKrakenとおよびタンパク質レベルでの配列マッチングのKaijuを組み合わせている(Burrows-Wheeler変換し…

インタラクティブなRNA seq解析webアプリケーション iDEP

2019 5/23 tweet追記 RNAシークエンシング(RNA-Seq)[1]は、ゲノムワイドな発現解析のための日常的な技術となった。ますます低コストで、ライブラリー構築およびシーケンシングはしばしば標準的なプロトコルに従って実施することができる。多くの研究者、特…

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

2018 12/3 図差し替え RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC)とシーケンスデータのフィルタリングが重要になる。ワークフローは通常、次のように進行する。最初にシーケンスクオリティチェックを行い、続いてア…

アセンブリのグラフを可視化し、アセンブリの評価・分析を助ける SGTK

2018 11/27 誤字修正 Scaffoldingはすべてのゲノムアセンブリパイプラインの重要なステップである。scaffoldingにより、メイトペアライブラリやロングリードなどのさまざまなタイプのリンケージ情報を使用してコンティグをより長い配列にアラインできる。 こ…

既知変異を保護しながらロングリードRNA seqのエラーを訂正する TranscriptClean

従来のショートリードRNAシークエンシングは、様々な用途における遺伝子発現を定量するために広く使用されている。ショートリードリードは正確で費用効果が高いが、一般に数キロベース長ある全長哺乳動物アイソフォームを解決する能力が欠けている(論文より…

マッピングツール segemehl

2018 11/5 タイトル修正 近年、短いシーケンシングリードを大きなリファレンスゲノムにアライメントさせる問題はかなりの注目を集めており、これまで様々な異なるアルゴリズムアプローチに基づく、異なる多くのアラインメントツールが発表されている。 EBIの…

複数のアセンブラとk-merを使ったTranscriptome 自動アセンブリワークフロー Oyster River Protocol

2018 11/2 コマンド追記 & 誤字修正 2018 11/7 誤字修正 2019 4/6 docker追記 現代のシーケンシング技術は細胞内の代謝過程から人口変動パターンまで、非常に幅広い自然現象の基礎となるゲノムレベルのプロセスを深く理解する機会を提供してきた。トランスク…

de novo transcriptomeのアノテーションツール dammit

dammitは、単純なde novo transcriptome annotatorである。 アノテーションのプロセスの個々の部分は全てすでに存在しているが、既存の解決策は過度に複雑であるか、または無駄な非フリーソフトウェアに依存しているという観測から生まれた。 dammitは無料で…

よく似たゲノム情報を使い不完全なゲノム情報しか持たない種のRNA seq解析の精度を上げる自動化されたツール Necklace

2018 10/31、11/2 タイトル、コード等修正、docker追加 シーケンシングされた種の数が増加しているが、ゲノムの大部分は不完全である。それらにはギャップが含まれていても、配置されていない領域が残っていてもよく、アノテーションが不十分な場合もある。…

共発現遺伝子の自動クラスタリングツール CLust

遺伝子の転写は、すべての生物において動的かつ協調的に調節される。そのような協調的調節は、時系列およびperturbation-responseデータセット (参考HP) における転写産物の協調的変化として明白である。遺伝子の転写は、遺伝子のプロモーター領域またはエン…

インタラクティブなヒートマップを簡単に作成できるwebツール shinyheatmap

ヒートマップソフトウェアは、一般に、静的ヒートマップソフトウェア (static heatmap software) [論文より ref.1-9]とインタラクティブヒートマップソフトウェア (interactive heatmap software) [ref.10-20]の2つのカテゴリに分類することができる。静的ヒ…

WIGファイルの圧縮と解凍を行う smallWig

NGSのシークエンシング技術の発達により、DNA / RNAのシーケンスと発現解析のコストが劇的に減少した。 RNA-seqは、様々な種および生物、ならびに異なる器官および細胞集団の全トランスクリプトーム情報を提供する、重要かつ安価な技術になった。RNA-seq実験…

SuperTranscripts 其の2

Githubで紹介されている、Supertransctiptsを非モデル生物のRNA seq解析に適用する場合の流れを確認する。以下のようなフローをとる。 de novoアセンブリして得たcontigにマッピングして定量し、定量結果からクラスタリングする。そのクラスタリング情報を使…

Kallisto

典型的なRNA-seqの転写産物レベル処理ワークフローの最初の2つのステップは、トランスクリプトーム配列またはリファレンスゲノムへのアラインメントおよび転写産物存在量の推定である。これらのステップには時間がかかることがある。例えば、広く使用されて…

融合遺伝子とキメラ転写産物を検出する ChimPipe

キメラtranscriptsは、ゲノム中の異なる2つ以上の遺伝子に由来する配列を有する転写産物であり[論文より ref.1]、ゲノムまたは転写レベルでいくつかの異なる生物学的メカニズムによって説明することができる。ガンとの歴史的関係については、最もよく知られ…

Picard Toolsのbamを分析する各コマンドを実行し、結果を統合する picardmetrics

picardmetricsはKamil Slowikowskiさんが公開されたPicard(ピカード)Toolsのbamを分析する各コマンドを走らせ、その結果を統合してくれるシェルスクリプト。 コマンド https://slowkow.github.io/picardmetrics/ インストール ubuntu18.04に導入した。 依…

NGSデータをマッピングする Magic-BLAST

2019 4/2 文章修正 Magic-BLASTは、NGSシーケンスデータ(Illumina、Roche-454、ABI(SOLiDを除く))をゲノムやトランスクリプトーム全体に対してマッピングするため開発されたNCBI BLASTの派生ツール。Magic-BLASTは他のBLASTプログラムと同様に動作し、は…

RNA seq用のde novoアセンブリツール BinPacker

RNA-seq法の出現によりmRNA発現レベルに関して前例のない正確さが提供されたため、転写、スプライシング変異および関連する機構の研究方法が大きく変わっている[論文より ref.1]。それらは、レアなスプライシングアイソフォームおよび低発現スプライシングア…

RNA seq用のターゲットアセンブリツール Kollector

非モデル生物のための高品質のリファレンスゲノム配列の作製は、特に大きなゲノム(> 1Gbp)では依然として挑戦的な取り組みである。このようなプロジェクトでは、デノボでの全ゲノムアセンブリは、通常、数種の異なるタイプのDNAライブラリーの数十億のシー…

データが同じサンプルに由来するかどうかをvariant callingから判定する BAM-matcher

特に、シーケンススループットの高いプロジェクトや施設(Koboldt et al。、2010)においては、ミスラベルやミックスアップはよくある問題である 。次世代シーケンシング(NGS)データを扱う場合、誤ったラベルのサンプルは誤ったデータ処理と分析につながり…

選択的スプライシングを検出する SplAdder

Alternative splicing (AS)(以下、選択的スプライシング)は、成熟mRNAを高度に調節された様式で切断および再結合させ、それによって転写産物の複雑性を増加させるmRNAプロセシング機構である。生物に応じて、発現遺伝子の95%までが複数の転写産物に転写さ…