macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

bam/sam

bamファイルを扱う bamM

BamMはBAMファイルを解析するpythonにラップされたcライブラリである。 このコードはPySam (link) のすべての機能を実装するものではないが、PySamよりも高速で安定したBAMファイルのインターフェースを提供することを目的としている。 HP http://ecogenomic…

Virusの ultra deep NGSのbamからコンセンサス配列を出力する ConsensusFixer

2019 5/14リンク追加 2019 5/30 インストール追記 ConsensusFixerはjavaコマンドラインアプリケーション。virusのウルトラディープNGSのアライメント(インフレーム挿入とあいまいなヌクレオチドを含む)からコンセンサスシーケンスを計算、出力する。Europe…

コンソールでbamのカバレッジを素早く確認できる bamcov

bamcovは、Florian Breitwieserさん(Github)が公開されている、bamのカバレッジを計算してコンソール上で表示するユーティリティ。 インストール macps10.14でテストした。 Github git clone --recurse-submodules https://github.com/fbreitwieser/bamcov…

IRLとIRRに挟まれたトランスポゾンを検出する panISa

panISaソフトウェアは、ショートリードデータから、最初に(すなわち、データベースを含まないアプローチで)NGSデータ上の挿入配列を検索する。 手短に言えば、ソフトウェアは、潜在的なISの開始位置および終了位置上のクリップされたリードを数えることに…

bamからのリードの抽出とリアライメントを素早く実行する Bazam

2019 4/20 論文引用 過去10年間にわたるハイスループットゲノムシーケンシングマシンの大規模な採用は、巨大な可能性を有する膨大な量のゲノムデータを生み出してきた。ゲノムデータは、座標 (coordinate) ソートされたBAMまたはCRAMフォーマットでアライメ…

samtoolsのインストール

2019 2/26 インストール追記 あけましておめでとうございます。今年もよろしくお願い致します。 samtoolsがどんどんアップデートしているので、久しぶりに更新します。ここではパッケージマネージャに頼らず、ソースからビルドします。自分の環境に合わせて…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

バリアントコール結果を可視化して、素早くバリアントフィルタリングを行うVIPER

次世代シーケンシング(NGS)の開発により、ゲノムシーケンシングは多くの研究分野、特にがん研究に関連する分野(Shen et al。、2015)に適用可能となった。異なるスケールで変化を検出するため多くのツールが開発されている。例えば、GATK(McKenna et al…

シーケンシングデータのハプロタイプを可視化し、リードを分類する HapFlow

2018 11/3 誤字修正 2019 3/18 freebayes追記 ハイスループットシーケンシング技術の出現により、バクテリア集団のシーケンシングのような新しい実験的アプローチが可能になった。感染は、しばしば同じ種の複数の株を含んでおり(Darch et al、2015; Taylor …

samのフィルタリングツール SAMsift

SAMsiftはKarel BřindaさんがGithubで公開されている、samを様々な条件でフィルタリングできるツール。 インストール mac os10.13のPython 3.6.2 :: Anaconda 3-5.0.0 でテストした。 本体 GIthub #Anaconda環境conda install -c bioconda samsift#Anaconda…

複雑なクエリ表現に対応し、BAMを様々な条件でフィルタリングできる BAMQL

Binary Alignment / Map(BAM)は、リファレンスゲノムとのアラインメント後に大量のゲノムリードデータを保持するための共通フォーマットを提供している。リードには捕捉情報が追加されており、例えばFASTAやFASTQファイルには含まれていないターゲット位置…

環状ゲノムのシーケンシングデータのマッピングを改善する CircularMapper

Graphフォーマットを使えば環状のリファレンスゲノムを正しく表現できるが、プレーンのFASTA形式には環状のリファレンスゲノムを正しく表現する方法が整備されていない。そのため、環状ゲノムのシーケンシングデータを"線状の"リファレンスゲノムFASTAにマッ…

review article要約 SNPs callingビギナーズガイド

8/24 誤字修正 A beginners guide to SNP calling from high-throughput DNA-sequencing data (Andre ́ Altman et al., 2012)より ハイスループットDNAシークエンシング(HTS)は、ライフサイエンスにおいてますます重要になっている。その最も顕著な用途…

sam/bamがmalformedではないか調べるPicardのValidateSamFile

sam/bamをいじっていると、ヘッダーが無かったり重複したり、ダウンロードが不完全だったり、様々な理由でおかしくなってしまうことがある。PicardのValidateSamFileはsam/bamにエラーがないか分析するコマンド。実行するとエラーが見つかったところを教えて…

オリジナルfastqと比較してbamのリード情報が完全に同じかどうか調べる BamHash

(ゲノム)リシーケンシングプロジェクトは、既知ゲノムを有する種の個体のシーケンシング解析であり、大量のraw シーケンシングリードを生成し、その後、これらはリファレンスゲノムにアライメントされる。シーケンシングコストが減少し、現在のシーケンシ…

Picard Toolsのbamを分析する各コマンドを実行し、結果を統合する picardmetrics

picardmetricsはKamil Slowikowskiさんが公開されたPicard(ピカード)Toolsのbamを分析する各コマンドを走らせ、その結果を統合してくれるシェルスクリプト。 コマンド https://slowkow.github.io/picardmetrics/ インストール ubuntu18.04に導入した。 依…

bamとvcfの可視化分析ツール bam.iobio.ioとvcf.iobio.io

今日の大きなゲノムデータセットの分析は、all-or-nothingアプローチ、すなわち、時間がかかり直感的ではない完全なエンド・ツー・エンドの分析を生み出す。それはまた、かなりの計算専門知識と高価なコンピュータインフラストラクチャを必要とし、多くのベ…

詳細なリードカウント情報を出力する bam-readcount

シングルエンドのデータをターゲットとしている。 ペアエンドは独立してカウントされる。 インストール mac os 10.13でテストした。 依存 git cmake 2.8.3+ (cmake.org) mac osにはcmakeは入ってません。brew install cmakeで入れるのが手っ取り早いです。 …

bam, fastqのユーティリティツール EA-Utils

2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびアセンブリなどの一般的なタス…

bam/samのカバレッジなどを計算する pysamstats

pysamstatsはsamのstatisticsを出力できるツール。pileup出力のほか、一定のbinサイズでの出力もできる。ライブラリとしての活用も視野に設計されている。 インストール 本体 Github Anacondaなどの環境下なら、condaで導入する。 conda install -c bioconda…

データが同じサンプルに由来するかどうかをvariant callingから判定する BAM-matcher

特に、シーケンススループットの高いプロジェクトや施設(Koboldt et al。、2010)においては、ミスラベルやミックスアップはよくある問題である 。次世代シーケンシング(NGS)データを扱う場合、誤ったラベルのサンプルは誤ったデータ処理と分析につながり…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

シンプルなfastq、sam、bamの分析ツール fastqp 

fastqpはシンプルなNGSのシーケンスデータ(fastq、sam、bam)評価ツール。 インストール mac os 10.13 python2.7.14環境に導入した。 依存 Tested on Python 2.7, and 3.4 Tested on Mac OS 10.10 and Linux 2.6.18 Numpy, Scipy, and Matplotlib samtools …

bamの分析ツール Alfred

Alfredはbamの分析ツール。htslibを介してbamを読み込み、ggplot2で結果を可視化する機能などをもつ。 インストール cent os6でテストした。 依存 R ggplot2 本体 Github #リリースからバイナリv0.1.7を取ってくるwget https://github.com/tobiasrausch/alfr…

de novo transcriptomeのcontigクラスタリングツール Corset

2019 6/11 インストール追記 RNA-seqは、トランスクリプトームの様々な側面を研究するための強力な技術である。それは、遺伝子発見、選択的スプライシングイベントの検出、継時的発現分析、融合の検出、SNPおよび転写後エディティングなどの変異の同定を含む…

マルチマッピングを補正する MMR

ハイスループットシーケンシングデータのリファレンス配列への迅速かつ正確なマッピングの必要性に対処するために、過去数年間に多くの異なるソフトウェアツールが開発されてきており、その多くは頻繁に更新および改良されている(論文より Dobin et al、201…

構造変化のリードアライメント状況やゲノム比較結果を可視化する Ribbon

Visualizationは、現在のゲノム革命において、バリアント、発現パターン、進化による変化、および他の多くの関係を検査し、理解するために非常に重要な役割を果たす(Preprint ref.1~3)。しかし、構造変化可視化時のリードとリファレンス、またはリファレン…

BAMを感心対象のみにフィルタリングする VariantBam

ゲノムシーケンスのコストが減少するにつれて、大規模なシーケンスデータセットを取り扱う際のストレージおよび計算上の負担が増大する懸念がある。ヒトゲノムの全ゲノムシーケンシングを30倍のカバレッジにすると、およそ10億リードのシーケンスが可能にな…

高速なbam処理ツール biobambam2

<Biobambam論文(*1)より> SAM(Sequence Alignment / Matching)およびBAM(Binary Alignment / Matching)ファイルフォーマットは、ハイスループットシーケンシングおよび得られたデータの参照ゲノムへのアライメントによって得られたシーケンスデータを保存するための標準フォーマ</biobambam論文(*1)より>…

アンプリコンシーケンスの擬陰性を防ぐため、bamからプライマーをトリミングする BAMClipper

Ampliconベースの次世代シーケンシング(NGS)は、高スループットな生殖系列(論文より ref.1,2)および体細胞変異検出のためのメジャープラットフォームの1つである(ref.3,4,5,6,7)(一部略)。 NGSのリードは、通常、遺伝子特異的プライマー(試薬由来)…