macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

bam/sam

ゲノムのBAMファイルを転写産物の BAM/RAD ファイルに変換してsalmonで扱えるようにする mudskipper

2022/03/25 タイトル修正 Githubより mudskipper は、ゲノムの BAM/SAM ファイルをトランスクリプトームの BAM/RAD ファイルに変換するツールです。具体的には、各アラインメントエントリーのゲノム座標を、GTF形式の与えられた転写産物アノテーションに基づ…

ABRIDGE

技術の進歩により、シークエンシングマシンは膨大な量の遺伝子データを生成するようになり、ストレージの需要が増加している。多くのゲノム解析ソフトウエアは、リードアライメントをトランスクリプトームアセンブリや遺伝子数推定などの目的で利用している…

seqkitに新しく追加されたコマンドを確認する 其の2

2022/03/14追記 これまで数回に分けてseqkitのコマンドを紹介して来ましたが(リンク)、バージョンアップが続いていて、ありがたいことに新しいコマンドも追加されています(谢谢您)。久しぶりに新機能を確認してみます。 この記事を書いたすぐ後にv2.2が…

マッピングのローレンツ曲線を生成する bam-lorenz-coverage

Githubより bam-lorenz-coverageはBAMファイルから直接ローレンツプロットやカバレッジプロットを簡単に作成できるフリーソフトです。また、テーブルをテキスト文書として出力することができるので、カスタムプロットを作成することも可能です。また、特定の…

JBrowse 2 desktopのマッピングファイル表示機能を試す

JBrowse 2 desktopはシークエンシングデータのマッピングファイルの読み込みに対応しており、リファレンスゲノムに沿ったリードのアラインメントを表示することができる。 読み込み可能なデータ。ファイルの種類によってはインデックスも必要。 Tabixed VCF …

高効率なカバレッジ計算ツール BamToCov

2022/02/25 論文引用 多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは…

(メタゲノム)BAMのカバレッジ、polymorphic サイト率、リファレンスフリーのコンセンサス配列を計算する CMSeq

CMSeqは、SegataLabで公開されている、リファレンスのカバレッジ、polymorphic サイト率、BAMからのコンセンサス配列計算のための.bamファイルへのインターフェースを提供するコマンド群。 インストール 依存 Requires: samtools (> 1.x) numpy pysam pandas…

SAMファイルのFLAG値と属性の関係を確認するHP

2021 8/24 誤字修正 SAMファイルのFLAGフィールドは、10進数で0から65535 (2^16-1) の間の値を取る。bitwise FLAG になっていて、2の累乗(2^n)でアラインメントの状態(プロパティ、属性)が定義できる。複数の属性を定義できるようになっている。各桁の…

samファイルのクリッピングされたアラインメントを除く samclip

Githubより ほとんどのショートリードアライナーは、参照ゲノムに対するリードのローカルアライメントを行う。例として、bwa mem、minimap2、bowtie2などがある(--end-to-endモードの場合を除く)。つまり、リードの両端がベストアライメントに含まれていな…

ANGSD

ハイスループットのDNAシーケンス技術は、膨大な量のデータを生成する。何千ものサンプルを同時に解析するためには、高速で柔軟性があり、メモリ効率の良い実装が必要である。ここではANGSDと呼ばれるマルチスレッド・プログラム・スイートを発表する。この…

bamのカバレッジを素早くプロットする tinycov

Githubより Tinycovは、BAMファイルのカバレッジを素早くプロットする、Pythonで書かれた小さなスタンドアロンのコマンドラインユーティリティです。このソフトウェアは、Matt Edwards氏のゲノムカバレッジプロッター(Github)に影響を受けています。入力と…

バリアント領域のリードマッピングを視覚化する BamSnap

バリアント検出アルゴリズムの向上にもかかわらず、ゲノム解析における正確なバリアントの同定には、リードレベルのデータを視覚的に確認することが重要な課題となっている。著者らは、グラフィックスライブラリとBAMインデックスを利用した効率的なBAMファ…

VCFやBCF を扱う bcftools

2020 11/17 追記 2021 4/244 追記 2021 5/24 docker imageのリンク追加 2021 6/2 callコマンド追記 2021 9/17 論文引用 2021 10/1 追記 bcftoolsは変異をコールしてバリアントコールフォーマットのVCFを出力したり、VCFやBCF(VCFのバイナリーフォーマット)…

bamを操作する包括的なツールキット BamDeal

2021 9/6 コード修正 BamDeal は bam ファイルの包括的な解析を行うためのフル機能ツールキットである。C/C++ 言語で実装されており、Linux と Mac OS X オペレーティングシステムで利用可能である。 インストール 依存 Pre-installations of 4 libraries or…

StoatyDive

タンパク質の生物学的機能は、その相互作用パートナーと相互作用のモードによって決まる。これらの相互作用を研究することで、オルタナティブスプライシングや転写後調節などの細胞メカニズムに関する視野が広がる。クロスリンク、またはクロマチン免疫沈降…

ゲノムスケッチを用いて迅速にコホートサンプルの関連性を推定する somalier

複数の空間的または縦断的生検から得られたシーケンシングデータを解釈する際には、サンプルのmix upを検出することが不可欠であるが、生殖細胞変異の研究よりも困難である。腫瘍のほとんどのゲノム研究では、遺伝的変異は腫瘍とサンプル提供者の正常組織の…

(モデル生物 )MNase-seqやchip-seeのアラインメントを2D plotで視覚化する plot2DO

ヌクレオソーム、これは147 bpのDNAがA約1.7ターンでヒストンオクタマーに包まれる真核生物のDNAパッケージングの基本単位である(Luger、et al、1997)。標的部位へのDNA結合因子のアクセスは、これらの部位がヌクレオソームフリー領域(NFR)にある場合、…

カバレッジトラックを視覚化する SparK

2020 3/1 コマンド修正 Integrative Genomics Viewer(IGV)やUCSCゲノムブラウザなど、NGSデータの表示に利用できる洗練されたリソースが存在するが、領域のエクスポートとpublication用の図の組み立ては依然として困難である。特に、トラックの外観のカス…

DNA解析ソフト5 Artemis ゲノムブラウザ

2020 3/2 タイトル修正。DNA解析ソフトと表記した。 2020 3/13 追記 高スループットシーケンス(HTS)テクノロジにより、多数のサンプルの低コストシーケンスが一般的になった。 ゲノムリシーケンシング、集団規模の変異検出、全トランスクリプトームシーケ…

fasta/fastq/bamのユーティリティツール fxtools

インストール ubuntu16.0.4でテストした。 本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…

マッピングからコンセンサス配列を出力するbcftoolsのconsensusコマンド

2019 8/5 bcftools help追加 2019 8/30追記 2019 11/11追記 2020 3/20 bowtiee2コマンド修正 2021 5/24 dockerhubのイメージへのリンク追加 変異株のリファレンスをゲノムに当て、その個体についてコンセンサス配列を作成したいことがある。 これはbcftools…

elPrep 4

2020, 2021 9/17 追記 elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプライ…

bamファイルを使ってDNA/RNAシーケンスのピーク定量やTPM計算、bigwigのcoverage trackを作成する BAMscale

2020 1/14 conda追記 2020 9/23 タイトル修正 BAMscaleは、chromatin binding(ChIP-seq)およびクロマチン状態変化(ATAC-seq、END-seq)やchromatin state changes(ATAC-seq, END-seq)、RNA seqのシーケンシングデータセットを処理するワンステップツー…

bamファイルを扱う bamM

BamMはBAMファイルを解析するpythonにラップされたcライブラリである。 このコードはPySam (link) のすべての機能を実装するものではないが、PySamよりも高速で安定したBAMファイルのインターフェースを提供することを目的としている。 HP http://ecogenomic…

Virusの ultra deep NGSのbamからコンセンサス配列を出力する ConsensusFixer

2019 5/14リンク追加 2019 5/30 インストール追記 ConsensusFixerはjavaコマンドラインアプリケーション。virusのウルトラディープNGSのアライメント(インフレーム挿入とあいまいなヌクレオチドを含む)からコンセンサスシーケンスを計算、出力する。Europe…

コンソールでbamのカバレッジを素早く確認できる bamcov

bamcovは、Florian Breitwieserさん(Github)が公開されている、bamのカバレッジを計算してコンソール上で表示するユーティリティ。 インストール macps10.14でテストした。 Github git clone --recurse-submodules https://github.com/fbreitwieser/bamcov…

IRLとIRRに挟まれたトランスポゾンのab initio挿入を 高感度に検出する panISa

20210910 誤字修正 2021 12/27 追記 2022 1/4 インストール手順変更 panISaソフトウェアは、ショートリードデータから、最初に(すなわち、データベースを含まないアプローチで)NGSデータ上の挿入配列を検索する。 手短に言えば、ソフトウェアは、潜在的なI…

bamからのリードの抽出と他のゲノムアセンブリへのリアライメントを素早く実行する Bazam

2019 4/20 論文引用 2020 11/12 誤字修正、タイトル修正 過去10年間にわたるハイスループットゲノムシーケンシングマシンの大規模な採用は、巨大な可能性を有する膨大な量のゲノムデータを生み出してきた。ゲノムデータは、座標 (coordinate) ソートされたBA…

samtoolsのインストール

2019 2/26 インストール追記 2019 12/8 追記 2020 3/25 conda追記 2020 10/13 1.11追記2021 2/17 新しい論文を引用、ツイート追加 2021 dockerについて追記 2022/05/12 追記 v1.15 あけましておめでとうございます。今年もよろしくお願い致します。 samtools…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…