macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

bam/sam

Picard Toolsのbamを分析する各コマンドを実行し、結果を統合する picardmetrics

picardmetricsはKamil Slowikowskiさんが公開されたPicard(ピカード)Toolsのbamを分析する各コマンドを走らせ、その結果を統合してくれるシェルスクリプト。 コマンド https://slowkow.github.io/picardmetrics/ インストール ubuntu18.04に導入した。 依…

bamとvcfの可視化分析ツール bam.iobio.ioとvcf.iobio.io

今日の大きなゲノムデータセットの分析は、all-or-nothingアプローチ、すなわち、時間がかかり直感的ではない完全なエンド・ツー・エンドの分析を生み出す。それはまた、かなりの計算専門知識と高価なコンピュータインフラストラクチャを必要とし、多くのベ…

詳細なリードカウント情報を出力する bam-readcount

このプログラムの目的は、単一のヌクレオチド位置で測定基準を生成することです。生成されたメトリックの数は、偽陽性コールを除外するのに役立ちます。プログラムを提供していない場合は、現在コマンドラインでヘルプを利用できます任意の引数。 シングルエ…

bam, fastqのユーティリティツール EA-Utils

2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびアセンブリなどの一般的なタス…

bam/samのカバレッジなどを計算する pysamstats

pysamstatsはsamのstatisticsを出力できるツール。pileup出力のほか、一定のbinサイズでの出力もできる。ライブラリとしての活用も視野に設計されている。 インストール 本体 Github Anacondaなどの環境下なら、condaで導入する。 conda install -c bioconda…

データが同じサンプルに由来するかどうかをvariant callingから判定する BAM-matcher

特に、シーケンススループットの高いプロジェクトや施設(Koboldt et al。、2010)においては、ミスラベルやミックスアップはよくある問題である 。次世代シーケンシング(NGS)データを扱う場合、誤ったラベルのサンプルは誤ったデータ処理と分析につながり…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

シンプルなfastq、sam、bamの分析ツール fastqp 

fastqpはシンプルなNGSのシーケンスデータ(fastq、sam、bam)評価ツール。 インストール mac os 10.13 python2.7.14環境に導入した。 依存 Tested on Python 2.7, and 3.4 Tested on Mac OS 10.10 and Linux 2.6.18 Numpy, Scipy, and Matplotlib samtools …

bamの分析ツール Alfred

Alfredはbamの分析ツール。htslibを介してbamを読み込み、ggplot2で結果を可視化する機能などをもつ。 インストール cent os6でテストした。 依存 R ggplot2 本体 Github #リリースからバイナリv0.1.7を取ってくるwget https://github.com/tobiasrausch/alfr…

de novo transcriptomeのcontigクラスタリングツール Corset

RNA-seqは、トランスクリプトームの様々な側面を研究するための強力な技術である。それは、遺伝子発見、選択的スプライシングイベントの検出、継時的発現分析、融合の検出、SNPおよび転写後エディティングなどの変異の同定を含む広範囲の用途を有する[ref.1]…

マルチマッピングを補正する MMR

ハイスループットシーケンシングデータのリファレンス配列への迅速かつ正確なマッピングの必要性に対処するために、過去数年間に多くの異なるソフトウェアツールが開発されてきており、その多くは頻繁に更新および改良されている(論文より Dobin et al、201…

構造変化のリードアライメント状況やゲノム比較結果を可視化する Ribbon

Visualizationは、現在のゲノム革命において、バリアント、発現パターン、進化による変化、および他の多くの関係を検査し、理解するために非常に重要な役割を果たす(Preprint ref.1~3)。しかし、構造変化可視化時のリードとリファレンス、またはリファレン…

BAMを感心対象のみにフィルタリングする VariantBam

ゲノムシーケンスのコストが減少するにつれて、大規模なシーケンスデータセットを取り扱う際のストレージおよび計算上の負担が増大する懸念がある。ヒトゲノムの全ゲノムシーケンシングを30倍のカバレッジにすると、およそ10億リードのシーケンスが可能にな…

高速なbam処理ツール biobambam2

<Biobambam論文(*1)より> SAM(Sequence Alignment / Matching)およびBAM(Binary Alignment / Matching)ファイルフォーマットは、ハイスループットシーケンシングおよび得られたデータの参照ゲノムへのアライメントによって得られたシーケンスデータを保存するための標準フォーマ</biobambam論文(*1)より>…

アンプリコンシーケンスの擬陰性を防ぐため、bamからプライマーをトリミングする BAMClipper

Ampliconベースの次世代シーケンシング(NGS)は、高スループットな生殖系列(論文より ref.1,2)および体細胞変異検出のためのメジャープラットフォームの1つである(ref.3,4,5,6,7)(一部略)。 NGSのリードは、通常、遺伝子特異的プライマー(試薬由来)…

コード領域のリアライメントによってバリアントコールを改善する ABRA

indel検出を制限するアラインメントエラーおよびリファレンスバイアスを克服するために、多数のリアライメントおよびアセンブリ方法が提案されている。ショートリードのマイクロアライナーは、局所的に組み立てられたバリアントグラフへリードを局所的に再調…

構造変化が起きた部位のマッピング状況を出力する samplot

samplotはbamやcramを入力として、SVの起こった領域の図を出力してくれるツール。vcfからの一括描画にも対応しているため、variant call format(VCF)を出力したら、そのままsamplotに送るようなスクリプトを書くことで、推定SV全てを目視で簡単に確認でき…

様々な構造変化を検出する TIDDIT

ゲノム構造変異(SV)は大きなゲノムの再編成と定義され、逆位、転座、ならびに欠失および重複からなる(preprintより ref.1)。SVは、多くの異なるヒト遺伝的障害における直接的原因および寄与因子の両方であることが示されており、また、より一般的な表現…

samやfastqの単純分割

リードの境目を気にせず、とにかくfastqやsamを分割したいという時は、splitコマンドが使いやすい。 --非圧縮ファイルの分割-- 100Mbずつ分割し、gzip圧縮して保存。 split -b 100m input output_ && gzip output_* 非圧縮出力で良いなら、&&の手前まででOK…

コマンドライン環境のゲノムブラウザ ASCIIGenome

次世代シーケンシングデータの視覚化は、研究者が結果の質を評価し仮説を生成することを可能にするゲノミクスの基本的な部分である。したがって、ゲノムデータをブラウズするためのいくつかのプログラムは、ゲノミクスコミュニティの間で広く普及しており、…

SAMToolsなどと互換で高速なsam,bam,cramの処理ツール elprep

一般にDNA配列解析はマッピングとそれに続く分析からなる(論文 図1)。マッピング段階では、BWA [論文より ref.1]のようなアライメントツールを介して既知の参照ゲノムにマッピングされる。その後、マッピングされたリードは、GATK [ref.2]のような変異検出…

FASTQ、BED、BAMを操作するNGSUtilsその1 bamutils

NGSUtilsは、FASTQ、BED、BAM形式のファイルなどを操作するためのツール。 Mac OS XおよびLinuxで動作する。コマンドが多いので3回に分けて紹介する。1回目はbamを操作するbamutils。 インストール 公式ページ NGSUtils - Tools for next-generation seque…

RNA seqのクオリティコントロールツール RSeQC

RSeQCはクオリティ、GCバイアス、PCRバイアス、ヌクレオチド組成バイアス、シーケンスのデプス、strandの特異性、カバレッジ均一性およびゲノムのfeature上のカバレッジ分布など、RNA-seq実験を総合的に評価するパッケージ。SAMとBAMを入力として利用できる…

BBtoolsを使い各クロモソームのカバレッジを計算する

様々な方法があるが、正確に出すのは意外に難しい(例えばsamtools mpileupは0カバレッジをカウントしない)。ここではBBtoolsのpileup.shを使い各クロモソームのカバレッジを個別に計算するコマンドを紹介する。 追記 2/26 コマンド修正 インストール BBtoo…

bamの分析に使うバイオインフォマティクスのツールキット goleft

goleftはMIT licence下で提供されているバイオインフォマティクスのツールキット。GO言語で構築されている。 インストール Github https://github.com/brentp/goleft リリース(リンク)からosx向けバイナリーをダウンロードできる。パスの通ったディレクト…

古いサンプルのデータ (fastqやbam) から効率的にアダプターを除く leeHom

古いDNAが断片化したサンプルからのシーケンスが増えている。しばしば数万年前のサンプルからも抽出される古代のサンプルのDNAは断片化が起きており、うまくDNAを抽出してもサイズが100-bpを超えることは滅多にない。短いDNAをペアードエンドでシーケンスす…

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MulitiQC

今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり、プロジェクト全体で品質評価(クオリティチェック)するためのツールがなかった。プロジェクト全体で一貫した品質評価ができないと、チェック漏れが出てしまう恐…

DNAでもRNAでも使える、複数サンプルのマッピングを同時比較できるGUIツール Qualimap2

公式サイト http://qualimap.bioinfo.cipf.es ユーザーマニュアル http://qualimap.bioinfo.cipf.es/doc_html/index.html ワークフロー http://qualimap.bioinfo.cipf.es/doc_html/workflow.html CUI環境でのラン。 http://qualimap.bioinfo.cipf.es/doc_htm…

TopHatのunmapped.bamを修復する TopHat-Recondition

tophatはスプライシングされた領域を跨ぐアライメントが可能なRNAのマッピングツールだが、他のアライメントユーツとは異なり、tophatのすべてのバージョンはアライメントされなかったリードを独自形式で別のbamに書き込む。このフォーマットが理由で、unmap…

並列化に対応したアダプタートリミングツール Atropos

AtroposはCutadaptのフォークとして開発されたNGSのアダプタートリミングツール。並列化に対応しており、高速に動作する。Cutadaptよりセンシティブで(ミスマッチを考慮する)、miRNAやbisulfite-seq用のトリミングモードも備える。エラー率やアダプター配…