macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018-06-01から1ヶ月間の記事一覧

ゲノムビューア Genomeview

コスト削減と性能向上のために、ハイスループットシークエンシングや次世代シークエンシング(NGS)マシンは世界中の数十のゲノム研究所で数百万の配列を生産している(論文より ref.1-4)。 NGSデータのアプリケーションは多様であり、例えば、NGSは、大規…

bam, fastqのユーティリティツール EA-Utils

2019 9/8 インストール追記 2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびア…

ゲノムのドットプロット解析を行うツール Dot

ゲノムをMUMmerのnucmerコマンドで相互にアライメントさせた後、ドットプロット(wiki)形式で視覚化するためのツール。 本体 Github(python3.6) https://github.com/dnanexus/dot また、このリポジトリをcloneし、Webブラウザでindex.htmlファイルを開く…

bam/samのカバレッジなどを計算する pysamstats

2020 3/1 インストール手順修正 pysamstatsはsamのstatisticsを出力できるツール。pileup出力のほか、一定のbinサイズでの出力もできる。ライブラリとしての活用も視野に設計されている。 インストール anaconda3.7環境でテストした(macos10.14)。 本体 Gi…

データが同じサンプルに由来するかどうかをvariant callingから判定する BAM-matcher

特に、シーケンススループットの高いプロジェクトや施設(Koboldt et al。、2010)においては、ミスラベルやミックスアップはよくある問題である 。次世代シーケンシング(NGS)データを扱う場合、誤ったラベルのサンプルは誤ったデータ処理と分析につながり…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

fasta、fastqの簡単なstatisticsを出す Seqstats

SeqstatsはHeng Li(wiki)の優れたklibライブラリを使い、Cで書かれたツール。 シーケンスリード、リファレンスゲノムおよびアセンブリファイルの一般的な要約統計情報を提供する。 gzipまたはプレーンのfastqおよびfastaファイルを読み込むことができる。 …

選択的スプライシングを検出する SplAdder

Alternative splicing (AS)(以下、選択的スプライシング)は、成熟mRNAを高度に調節された様式で切断および再結合させ、それによって転写産物の複雑性を増加させるmRNAプロセシング機構である。生物に応じて、発現遺伝子の95%までが複数の転写産物に転写さ…

SPAdesのアセンブリを改善する Shovill

2019 7/16 インストールの説明の誤りエラー修正 2019 9/25 twitterリンク追加 2019 10/25 dockerリンク追加 SPAdesゲノムアセンブラは、バクテリアや他の真核微生物(主に1倍体)のIlluminaホールゲノムシーケンシング(WGS)データのデファクトスタンダード…

CNVのシミュレータ CNV-Sim

CNV-SimはCopy numver variationのシミュレータ。ランダム、または提供されたリストに従って、リードの増幅および欠失が起きる。このツールは2種類のシミュレーション機能を持つ。1つは全ゲノムにおけるCNVシミュレーションで、 CNV-Simは、ARTの機能を利用…

アンプリコンシーケンスのバリアントコーラー UNDR ROVER

超並列シーケンシング(MPS)[論文より ref.1]のためにHi-Plex(www.hiplex.org)と呼ばれる高度に多重化されたPCRベースのターゲット濃縮システムを開発した。 Hi-Plexは、非常に正確な結果を得ることができるシンプルで低コストのプロトコルである。その主…

SuperTranscripts 其の1

ハイスループットシークエンシングは、cDNA配列のシーケンスを可能にし、単一の手頃なアッセイを用いて発現レベルを定量化することができるため、トランスクリプトミクスに革命をもたらした[論文より ref.1,2]。 RNAシークエンシング(RNA-seq)は、遺伝子レ…

シンプルなfastq、sam、bamの分析ツール fastqp 

fastqpはシンプルなNGSのシーケンスデータ(fastq、sam、bam)評価ツール。 インストール mac os 10.13 python2.7.14環境に導入した。 依存 Tested on Python 2.7, and 3.4 Tested on Mac OS 10.10 and Linux 2.6.18 Numpy, Scipy, and Matplotlib samtools …

自動でコンタミネーションを除く ProDeGe

最近の技術的進歩によりハイスループット配列決定シーケンス解析が可能になり、難培養微生物のsingle amplified genomes(SAG; Rinke et al。、2013 ; Swan et al。、2013 )やメタゲノムのアセンブリおよびbinningが可能になった(GMGs; Cuvelierら、2010 ;…

bamの分析ツール Alfred

2020 8/22 論文追記 大規模な第二世代および第三世代のシーケンシングデータセットの品質管理(QC)を調和させることは、下流の計算や生物学的解析を可能にするための鍵となる。ここで著者らはAlfredを紹介する。Alfredは効率的で汎用性の高いコマンドラインア…

MinHashを利用した長い配列(ゲノムやロングリード)のアライナー MashMap

2018 タイトル修正 2019 6/21 インストール追記、論文追記 2020 10/19 help更新、文章修正 ハイスループットDNAシーケンサーによって生成されたリードをリファレンスゲノムにマッピングすることは、根本的かつ広く研究されている課題である[Preprintより ref…

(RNA seq) 複数のde novoアセンブリ結果をマージし、冗長なcontigを除く DRAP

第二世代シークエンシングプラットフォームは、多種多様な種および条件の遺伝子発現を分析することを可能にする、多量の転写産物のシーケンスデータの生成を可能にした。リファレンスゲノム配列を欠く種については、現在の古典的なプロセシングパイプライン…

polyploidのラージゲノムのアセンブラ Meraculous2

ヒトや他のギガベース規模のゲノムの正確なディープショットガンシーケンスは、今や控えめなコストで容易に利用可能になっている。これらのシーケンシングスループットの増加により、大規模かつ複雑なゲノム用のショットガンシーケンスを構築するための新し…

DACCOR

シーケンシングリードからのゲノムの再構築は、デノボアセンブリによって達成でき、重複したリードが同定され、コンティグと呼ばれるより長い連続配列に拡張される。あるいは、highly closedなリファレンスゲノムが利用可能であれば、このゲノムに対してリー…

クロロプラストゲノムの自動アセンブリパイプライン Fast-Plast

Fast-Plastは、既存および新規のプログラムを活用して、葉緑体ゲノム全体を迅速にアセンブリし、検証するパイプライン。 十分なデータを持つほとんどのデータセットについて、Fast-Plastは自動で完全長の葉緑体ゲノムアセンブリを生成できる。 Fast-Plastは…

de novo transcriptomeのcontigクラスタリングツール Corset

2019 6/11 インストール追記 RNA-seqは、トランスクリプトームの様々な側面を研究するための強力な技術である。それは、遺伝子発見、選択的スプライシングイベントの検出、継時的発現分析、融合の検出、SNPおよび転写後エディティングなどの変異の同定を含む…

fastqをクラスタリングする QCluster

次世代シーケンシング(NGS)技術によって生成されるデータ量は、現在のコンピュータシステムのストレージおよびデータ処理能力に挑戦しているペースで増加している[ref.1]。現在の技術は1回の実行で5千億本以上のDNAを生産し(論文執筆時点)、今後のシーケ…

SPAdesアセンブラ

2018 タイトル修正、tips追加 2019 tweet追加、誤字修正ンストールバージョン3.13.1に更新、spades3.14に修正 2020 インストール追記、リンク追加、新しい論文引用、ツイート追記 2021 1/14 3.15にhelpを更新、ツイート追記、6/10 更新 2022/08/08 インスト…

バクテリアのRNA seq定量ツール EDGE-pro

バクテリアゲノム中の遺伝子の発現を測定することは、感染の治療法の開発から合成ゲノムの作成まで、非常に幅広い用途を有する。バクテリアにおける遺伝子発現研究は、代謝経路を研究し、変異株の特性を同定し、他の点ではそれらのゲノムにおける分子過程を…

fastq-dumpを並列化した pfastq-dump

2018 11/25 誤字修正 2019 12/18 インストール手順修正、コマンド実行手順追加 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive(wiki)からダウンロード…

fastqから素早くインサートサイズを計算する

bamファイルをすでに作っているなら、ペアエンドのインサートサイズはPicard-tools等ですぐ出せますが、raw fastqしかない時にいちいちbamにして求めるのは少し面倒です。ワンランナーで出すスクリプト書きました。好みにあわせて修正して使ってください。手…

メタゲノムのリアルタイム分類ツール LiveKraken

ゲノムシーケンシングデータのリアルタイム解析は、シーケンサがまだ稼動している間にデータを分析できるため、過去数年にわたって特に注目を集めている。しかし、Minionシーケンサーをベースにしたライブ解析アプローチの可能性は、これらのデバイスのスル…

ターゲット遺伝子座のリファレンスガイドアセンブリを行う aTRAM2.0

2021 7/21 タイトル修正 大規模なシーケンスからの迅速な標的遺伝子座特異的なアセ​​ンブリは、現在、医学から広範囲の系統学までの応用分野で、生物学科学全体で一般的に使用されている。ターゲットアセンブリ手法は、完全なゲノムのデノボアセンブリと比較…

メタゲノムのgene-targeted assembler: MegaGTA

次世代シーケンシングは、近年のメタゲノミクスの研究を大きく促進してきた。これらの研究は、しばしば何百万から数十億のリードをde novoでアセンブリし、コンティグにして遺伝子アノテーションすることを含む。これは、メタゲノムのアセンブリ効率を大幅に…

MaSuRCA アセンブラ

2018/8/28,29 dockerコマンド等、分かりにくい部分を修正 2019 5/3 動作条件追記、6/12 hybrid assembly リンク追加、10/9 condaインストール追記、ONTのハイブリッド追記、12/22 condaインストール追記 2020 1/22リンク追記 2022/10/10 help更新、dockerイ…