macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

bam/sam

bcftools

2020 11/17 追記 bcftoolsは変異をコールしてバリアントコールフォーマットのVCFを出力したり、VCFやBCF(VCFのバイナリーフォーマット)を操作するツール。多様なコマンドから成る。samtoolsの論文で発表された(論文より "The SAMtools package consists o…

bamを操作する包括的なツールキット BamDeal

BamDeal は bam ファイルの包括的な解析を行うためのフル機能ツールキットである。C/C++ 言語で実装されており、Linux と Mac OS X オペレーティングシステムで利用可能である。 インストール 依存 Pre-installations of 4 libraries or softs are required …

StoatyDive

タンパク質の生物学的機能は、その相互作用パートナーと相互作用のモードによって決まる。これらの相互作用を研究することで、オルタナティブスプライシングや転写後調節などの細胞メカニズムに関する視野が広がる。クロスリンク、またはクロマチン免疫沈降…

ゲノムスケッチを用いて迅速にコホートサンプルの関連性を推定する somalier

複数の空間的または縦断的生検から得られたシーケンシングデータを解釈する際には、サンプルのmix upを検出することが不可欠であるが、生殖細胞変異の研究よりも困難である。腫瘍のほとんどのゲノム研究では、遺伝的変異は腫瘍とサンプル提供者の正常組織の…

(モデル生物 )MNase-seqやchip-seeのアラインメントを2D plotで視覚化する plot2DO

ヌクレオソーム、これは147 bpのDNAがA約1.7ターンでヒストンオクタマーに包まれる真核生物のDNAパッケージングの基本単位である(Luger、et al、1997)。標的部位へのDNA結合因子のアクセスは、これらの部位がヌクレオソームフリー領域(NFR)にある場合、…

カバレッジトラックを視覚化する SparK

2020 3/1 コマンド修正 Integrative Genomics Viewer(IGV)やUCSCゲノムブラウザなど、NGSデータの表示に利用できる洗練されたリソースが存在するが、領域のエクスポートとpublication用の図の組み立ては依然として困難である。特に、トラックの外観のカス…

DNA解析ソフト5 Artemis ゲノムブラウザ

2020 3/2 タイトル修正。DNA解析ソフトと表記した。 2020 3/13 追記 高スループットシーケンス(HTS)テクノロジにより、多数のサンプルの低コストシーケンスが一般的になった。 ゲノムリシーケンシング、集団規模の変異検出、全トランスクリプトームシーケ…

fasta/fastq/bamのユーティリティツール fxtools

インストール ubuntu16.0.4でテストした。 本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…

マッピングからコンセンサス配列を出力するbcftoolsのconsensusコマンド

2019 8/5 bcftools help追加 2019 8/30追記 2019 11/11追記 2020 3/20 bowtiee2コマンド修正 変異株のリファレンスをゲノムに当て、その個体についてコンセンサス配列を作成したいことがある。 これはbcftoolsのconsensusコマンドを使って実行可能である。 h…

elprep 4

elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプラインでどの準備ステップ…

bamファイルを使ってDNA/RNAシーケンスのピーク定量やTPM計算、bigwigのcoverage trackを作成する BAMscale

2020 1/14 conda追記 2020 9/23 タイトル修正 BAMscaleは、chromatin binding(ChIP-seq)およびクロマチン状態変化(ATAC-seq、END-seq)やchromatin state changes(ATAC-seq, END-seq)、RNA seqのシーケンシングデータセットを処理するワンステップツー…

bamファイルを扱う bamM

BamMはBAMファイルを解析するpythonにラップされたcライブラリである。 このコードはPySam (link) のすべての機能を実装するものではないが、PySamよりも高速で安定したBAMファイルのインターフェースを提供することを目的としている。 HP http://ecogenomic…

Virusの ultra deep NGSのbamからコンセンサス配列を出力する ConsensusFixer

2019 5/14リンク追加 2019 5/30 インストール追記 ConsensusFixerはjavaコマンドラインアプリケーション。virusのウルトラディープNGSのアライメント(インフレーム挿入とあいまいなヌクレオチドを含む)からコンセンサスシーケンスを計算、出力する。Europe…

コンソールでbamのカバレッジを素早く確認できる bamcov

bamcovは、Florian Breitwieserさん(Github)が公開されている、bamのカバレッジを計算してコンソール上で表示するユーティリティ。 インストール macps10.14でテストした。 Github git clone --recurse-submodules https://github.com/fbreitwieser/bamcov…

IRLとIRRに挟まれたトランスポゾンを検出する panISa

panISaソフトウェアは、ショートリードデータから、最初に(すなわち、データベースを含まないアプローチで)NGSデータ上の挿入配列を検索する。 手短に言えば、ソフトウェアは、潜在的なISの開始位置および終了位置上のクリップされたリードを数えることに…

bamからのリードの抽出と他のゲノムアセンブリへのリアライメントを素早く実行する Bazam

2019 4/20 論文引用 2020 11/12 誤字修正、タイトル修正 過去10年間にわたるハイスループットゲノムシーケンシングマシンの大規模な採用は、巨大な可能性を有する膨大な量のゲノムデータを生み出してきた。ゲノムデータは、座標 (coordinate) ソートされたBA…

samtoolsのインストール

2019 2/26 インストール追記 2019 12/8 追記 2020 3/25 conda追記 2020 10/13 1.11追記 あけましておめでとうございます。今年もよろしくお願い致します。 samtoolsがどんどんアップデートしているので、久しぶりに更新します。ここではパッケージマネージャ…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

バリアントコール結果を可視化して、素早くバリアントフィルタリングを行うVIPER

次世代シーケンシング(NGS)の開発により、ゲノムシーケンシングは多くの研究分野、特にがん研究に関連する分野(Shen et al。、2015)に適用可能となった。異なるスケールで変化を検出するため多くのツールが開発されている。例えば、GATK(McKenna et al…

シーケンシングデータのハプロタイプを可視化し、リードを分類する HapFlow

2018 11/3 誤字修正 2019 3/18 freebayes追記 ハイスループットシーケンシング技術の出現により、バクテリア集団のシーケンシングのような新しい実験的アプローチが可能になった。感染は、しばしば同じ種の複数の株を含んでおり(Darch et al、2015; Taylor …

samのフィルタリングツール SAMsift

SAMsiftはKarel BřindaさんがGithubで公開されている、samを様々な条件でフィルタリングできるツール。 インストール mac os10.13のPython 3.6.2 :: Anaconda 3-5.0.0 でテストした。 本体 GIthub #Anaconda環境conda install -c bioconda samsift#Anaconda…

複雑なクエリ表現に対応し、BAMを様々な条件でフィルタリングできる BAMQL

Binary Alignment / Map(BAM)は、リファレンスゲノムとのアラインメント後に大量のゲノムリードデータを保持するための共通フォーマットを提供している。リードには捕捉情報が追加されており、例えばFASTAやFASTQファイルには含まれていないターゲット位置…

環状ゲノムのシーケンシングデータのマッピングを改善する CircularMapper

Graphフォーマットを使えば環状のリファレンスゲノムを正しく表現できるが、プレーンのFASTA形式には環状のリファレンスゲノムを正しく表現する方法が整備されていない。そのため、環状ゲノムのシーケンシングデータを"線状の"リファレンスゲノムFASTAにマッ…

review article要約 SNPs callingビギナーズガイド

8/24 誤字修正 A beginners guide to SNP calling from high-throughput DNA-sequencing data (Andre ́ Altman et al., 2012)より ハイスループットDNAシークエンシング(HTS)は、ライフサイエンスにおいてますます重要になっている。その最も顕著な用途…

sam/bamがmalformedではないか調べるPicardのValidateSamFile

sam/bamをいじっていると、ヘッダーが無かったり重複したり、ダウンロードが不完全だったり、様々な理由でおかしくなってしまうことがある。PicardのValidateSamFileはsam/bamにエラーがないか分析するコマンド。実行するとエラーが見つかったところを教えて…

オリジナルfastqと比較してbamのリード情報が完全に同じかどうか調べる BamHash

(ゲノム)リシーケンシングプロジェクトは、既知ゲノムを有する種の個体のシーケンシング解析であり、大量のraw シーケンシングリードを生成し、その後、これらはリファレンスゲノムにアライメントされる。シーケンシングコストが減少し、現在のシーケンシ…

複数bamを様々な評価指標で分析して結果を統合する picardmetrics

2020 8/24 タイトル修正 picardmetricsはKamil Slowikowskiさんが公開されたPicard(ピカード)Toolsのbamを分析する各コマンドを走らせ、その結果を統合してくれるシェルスクリプト。 コマンド https://slowkow.github.io/picardmetrics/ インストール ubun…

bamとvcfの可視化分析ツール bam.iobio.ioとvcf.iobio.io

今日の大きなゲノムデータセットの分析は、all-or-nothingアプローチ、すなわち、時間がかかり直感的ではない完全なエンド・ツー・エンドの分析を生み出す。それはまた、かなりの計算専門知識と高価なコンピュータインフラストラクチャを必要とし、多くのベ…

詳細なリードカウント情報を出力する bam-readcount

シングルエンドのデータをターゲットとしている。 ペアエンドは独立してカウントされる。 インストール mac os 10.13でテストした。 依存 git cmake 2.8.3+ (cmake.org) mac osにはcmakeは入ってません。brew install cmakeで入れるのが手っ取り早いです。 …

bam, fastqのユーティリティツール EA-Utils

2019 9/8 インストール追記 2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびア…