macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

bam/sam

構造変化のリードアライメント状況やゲノム比較結果を可視化する Ribbon

2020 8/9 論文追記 Visualizationは、現在のゲノム革命において、バリアント、発現パターン、進化による変化、および他の多くの関係を検査し、理解するために非常に重要な役割を果たす(Preprint ref.1~3)。しかし、構造変化可視化時のリードとリファレンス…

BAMを感心対象のみにフィルタリングする VariantBam

2020 4/17 インストール追記、help更新 ゲノムシーケンスのコストが減少するにつれて、大規模なシーケンスデータセットを取り扱う際のストレージおよび計算上の負担が増大する懸念がある。ヒトゲノムの全ゲノムシーケンシングを30倍のカバレッジにすると、お…

高速なbam処理ツール biobambam2

2020 4/17 help更新、インストール追記 <Biobambam論文(*1)より> SAM(Sequence Alignment / Matching)およびBAM(Binary Alignment / Matching)ファイルフォーマットは、ハイスループットシーケンシングおよび得られたデータの参照ゲノムへのアライメントによって得られたシーケ</biobambam論文(*1)より>…

アンプリコンシーケンスの擬陰性を防ぐため、bamからプライマーをトリミングする BAMClipper

Ampliconベースの次世代シーケンシング(NGS)は、高スループットな生殖系列(論文より ref.1,2)および体細胞変異検出のためのメジャープラットフォームの1つである(ref.3,4,5,6,7)(一部略)。 NGSのリードは、通常、遺伝子特異的プライマー(試薬由来)…

コード領域のリアラインメントによってバリアントコールを改善する ABRA

2019 5/23 ABRA2追記 indel検出を制限するアラインメントエラーおよびリファレンスバイアスを克服するために、多数のリアライメントおよびアセンブリ方法が提案されている。ショートリードのマイクロアライナーは、局所的に組み立てられたバリアントグラフへ…

構造多型部位のマッピング状況を出力する samplot

2020 9/26 Preprint引用、condaによるインストールコマンド、help追記 2021 5/27 論文追記 構造変異(SV)検出において、視覚的な検証は偽陽性を排除するために不可欠なステップである。著者らは、ショートリード、ロングリード、フェーズドリードを含む、複…

様々な構造変化を検出する TIDDIT

2021 6/6 インストール追記 ゲノム構造変異(SV)は大きなゲノムの再編成と定義され、逆位、転座、ならびに欠失および重複からなる(preprintより ref.1)。SVは、多くの異なるヒト遺伝的障害における直接的原因および寄与因子の両方であることが示されてお…

samやfastqの単純分割

2020 3/20 コマンド修正 リードの境目を気にせず、とにかくfastqやsamを分割したいという時は、splitコマンドが使いやすい。fastqを認識して正しく分けるならseqkit split(紹介)を使う。 --非圧縮ファイルの分割-- 1000MB (1GB) ずつ分割し、gzip圧縮して…

コマンドライン環境のゲノムブラウザ ASCIIGenome

2019 6/17 インストール追記 次世代シーケンシングデータの視覚化は、研究者が結果の質を評価し仮説を生成することを可能にするゲノミクスの基本的な部分である。したがって、ゲノムデータをブラウズするためのいくつかのプログラムは、ゲノミクスコミュニテ…

SAMTools互換の高速なsam,bam,cram処理ツール elprep

2019 7/28 コマンド修正 2019 8/3 リンク追加 一般にDNA配列解析はマッピングとそれに続く分析からなる(論文 図1)。マッピング段階では、BWA [論文より ref.1]のようなアライメントツールを介して既知の参照ゲノムにマッピングされる。その後、マッピング…

FASTQ、BED、BAMを操作するNGSUtilsその1 bamutils

2020 4/17 インストール追記 NGSUtilsは、FASTQ、BED、BAM形式のファイルなどを操作するためのツール。 Mac OS XおよびLinuxで動作する。コマンドが多いので3回に分けて紹介する。1回目はbamを操作するbamutils。 インストール 公式ページ NGSUtils - Tool…

RNA seqのクオリティコントロールツール RSeQC

2019 12/2 インストール追記 2020 12/9 誤字修正, help追加 2022 インストール手順追記 RSeQCはクオリティ、GCバイアス、PCRバイアス、ヌクレオチド組成バイアス、シーケンスのデプス、strandの特異性、カバレッジ均一性およびゲノムのfeature上のカバレッジ…

BBtoolsを使い各クロモソームのカバレッジを計算する

様々な方法があるが、正確に出すのは意外に難しい(例えばsamtools mpileupは0カバレッジをカウントしない)。ここではBBtoolsのpileup.shを使い各クロモソームのカバレッジを個別に計算するコマンドを紹介する。 追記 2/26 コマンド修正 インストール BBtoo…

bamの分析に使うバイオインフォマティクスのツールキット goleft

2020 3/15 インストール追記、help更新 2020 4/19 追記 goleftはMIT licence下で提供されているバイオインフォマティクスのツールキット。GO言語で構築されている。 インストール Github リリース(リンク)からosx向けバイナリをダウンロードできる。パスの…

古いサンプルのデータ (fastqやbam) から効率的にアダプターを除く leeHom

古いDNAが断片化したサンプルからのシーケンスが増えている。しばしば数万年前のサンプルからも抽出される古代のサンプルのDNAは断片化が起きており、うまくDNAを抽出してもサイズが100-bpを超えることは滅多にない。短いDNAをペアードエンドでシーケンスす…

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MultiQC

2019 1/16 誤字修正および対応ツール情報更新、12/29 ツイート追加 2020 1/17 condaインストール追記、4/19 説明追記、5/25 ツイート追記 2023/12/20ツイート追記 今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり…

DNAでもRNAでも使える、複数サンプルのマッピングを同時比較できるGUIツール Qualimap2

2019 9/8 インストール追記 公式サイト http://qualimap.bioinfo.cipf.es ユーザーマニュアル http://qualimap.bioinfo.cipf.es/doc_html/index.html ワークフロー http://qualimap.bioinfo.cipf.es/doc_html/workflow.html CUI環境でのラン。 http://qualim…

TopHatのunmapped.bamを修復する TopHat-Recondition

tophatはスプライシングされた領域を跨ぐアライメントが可能なRNAのマッピングツールだが、他のアライメントユーツとは異なり、tophatのすべてのバージョンはアライメントされなかったリードを独自形式で別のbamに書き込む。このフォーマットが理由で、unmap…

並列化に対応したアダプタートリミングツール Atropos

AtroposはCutadaptのフォークとして開発されたNGSのアダプタートリミングツール。並列化に対応しており、高速に動作する。Cutadaptよりセンシティブで(ミスマッチを考慮する)、miRNAやbisulfite-seq用のトリミングモードも備える。エラー率やアダプター配…

高速なbam/samの解析ツール Sambamba

2018 8/20 mpileupコマンドの謝り修正 2019 2/26 condaインストール追記 2021 6/2 help更新 Sambambaはsam、bam、cramの処理ツール。D言語で構築されている。フォーマットを変えたり、フィルタリングすることができる。SAMToolsやPicard-toolsの一部機能と重…

bamCoverageを使いカバレッジトラックを作成する

2019 9/13 インストール追記 2024/.04/15更新 deeptoolsはRNA-seq解析やchip-seq解析に特化したアライメントのカウント分析ツール(webサーバ)である。ヒートマップ出力などの機能を持ち、ツールの中にあるbamCoverageを使うと、bamのカバレッジ情報をwig形式…

マッピングを評価するツール qplot

qplotはマッピング結果の統計情報を出力したり、empiricalなクオリティスコアとマッピング結果から求めたベースクオリティスコアの差などをグラフ化したPDFを出力することができる(既知SNPsファイルが必要)。クオリティの低い塩基(バーコードとか)が残っ…

RNA seqのリードカウント HTSeq-count

2020 8/15 condaによるインストールとhelp追記 2021 8/6 リンク消去 HTSeqはNGSデータの各種ハンドリングができるツール。ここではその1つhtseq-countコマンドを紹介する。htseq-countはリードのアライメントデータからカウントデータを出力するために使う…

duplicationリードにタグをつける samblaster

2019 1/14 コマンド修正 2020 4/17 help追加 samblasterは、samファイルのduplicationのリードにタグをつけたり、構造変化の指標となるsplit-alingment readやdiscordant read pairを別ファイルに出力できるツール。samの時点でデータをより分けることで、di…

bedtools

追記 bedgraph出力 2019 9/4 インストール、twitterリンク追加 BEDファイルのオーバーラップ領域を抽出したり、マージしたりできるツール。BED以外にGFF、VCFも扱うことができる。bedtools <command> -a .bed -b .bedという使い方が基本。-aで指定したbedを-bで指定し</command>…

フォーマット変換 bam=> Fastq アライメントされなかったリードの取り出し方など

いくつか方法があるのでまとめておく。 追記 文章修正 1、bam2fastq 公式サイトでは今後は使用非推奨で、代わりにpicardを使ってと記載されています。これまでのデータであれば問題ないと思われますが、注意して使ってください。 ダウンロード 公式サイト Ge…

sam/bam関係のツールまとめ

随時更新 2019 1/23 リンク修正 2020 4/17 samtoolsについてmultiqcと連携する例を追記、4/18 help更新、インストール方法追加 2024/02/24 誤字修正 &インストールコマンド修正(conda => mamba ) samとbamのハンドリングに関するツールを紹介する。 追記 -…