macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

library

ロングリードのマルチプルシーケンスアラインメントを行う abPOA (POAのSIMD実装拡張)

マルチプルシーケンスアラインメント(MSA)問題を解決するために、Leeら(2002)によって最初に導入されたのがPartial order alignment(POA)である。POAでは、MSAをdirected acyclic graph(DAG)(有向無閉路グラフ)として表現し、動的計画法(wiki)(…

RNA seqのライブラリタイプを推測する GUESSmyLT

ショートリードRNAシーケンシング(RNA-seq)は、特に遺伝子発現の調査、ゲノムアノテーションの実行、SNVの検出、またはオルタナティブスプライシングされた転写物の確認を可能にする強力なアプローチである。シーケンスリードには、使用するRNA-seqライブ…

bamファイルを扱う bamM

BamMはBAMファイルを解析するpythonにラップされたcライブラリである。 このコードはPySam (link) のすべての機能を実装するものではないが、PySamよりも高速で安定したBAMファイルのインターフェースを提供することを目的としている。 HP http://ecogenomic…

様々なデータベースを使ってヒトミトコンドリア変異のアノテーションを行う hmtnote

2019 6/11 データベース追記 HmtNoteは、VCFファイルからヒトのミトコンドリアのバリアントにアノテーションを付けるためのPythonパッケージである。バリアントは、基本、相互参照、変動性、予測のサブセットにグループ化された幅広い情報を使用してアノテー…

SVのgenotypingを行うsvtyper

svtyperはspeedseqのツールの一部として提供されているvcfのgenotype情報追加ツール。vcfにgenoetype情報を追加して、追加したgenotype情報を元に、主にfilterlingするために使われる。Parliament2でも使用されている。 speedseqは以前紹介しています。 ヒト…

インタラクティブなDNA配列の2次元プロットを作成する Squiggle

次世代シークエンシング技術の登場により、DNA配列解析は、バイオインフォマティクスと生物学の両方でますます一般的なツールとなっている。この理由から、注釈されていないDNA配列を迅速に検査する能力は極めて重要である。しかし、FASTAファイルに含まれる…

データに適した視覚化フォーマットにナビゲートし、その描画コードを教えてくれる From Data to Viz

2020 3/3 タイトル修正 From Data to Vizは、決定木(wiki)を使ってデータの可視化に適したフォーマットを教えてくれるwebサイト。 From data to Viz | Find the graphic you need 下記の決定木を使い、自分の所有しているデータタイプに適したフォーマット…

Fermi-lite

Fermi-liteはHeng Liさん(wiki)がGithubで公開されているスタンドアロンのCライブラリ。イルミナのショートリードを100bpから1,000万bpの領域でアセンブリするコマンドラインツールとしても機能する。Fermi-liteはオーバーラップベースのアセンブリを行う…

メタゲノムデータの平均ゲノムサイズや総カバレッジを推定する MicrobeCensus

ショットガンメタゲノミクスは、人体や環境の微生物群集の機能的構成を特徴づけるためにますます使用されてきている[論文より ref.1-4]。これらの研究の共通の目標は、遺伝子ファミリー存在量を定量化し、環境、宿主の表現型、または実験条件の間で豊富さが…

bam/samのカバレッジなどを計算する pysamstats

2020 3/1 インストール手順修正 pysamstatsはsamのstatisticsを出力できるツール。pileup出力のほか、一定のbinサイズでの出力もできる。ライブラリとしての活用も視野に設計されている。 インストール anaconda3.7環境でテストした(macos10.14)。 本体 Gi…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

FASTA分析に使えるpythonライブラリ Goldilocks

Goldilocksは基準を満たす領域のさらなる解析を行うために設計されたPythonパッケージである。パッケージをスタンドアロンスクリプトにインポートするか、コマンドラインツールを使用して使用できる。(一部略)Goldilocksはもともと、複数のサンプルにわた…

VCF / BCFの高速なパーサ cyvcf2

2019 7/27 condaインストール追記 VCF形式(論文より Danecek et al、2011)は、DNAシーケンスの研究で観察された遺伝的変異を表すためのスタンダードである。 VCF形式の強みは、変異の位置、各遺伝子座におけるシーケンスされた個体の遺伝子型、ならびに広…

RNA seqのリードカウント HTSeq-count

2020 8/15 condaによるインストールとhelp追記 2021 8/6 リンク消去 HTSeqはNGSデータの各種ハンドリングができるツール。ここではその1つhtseq-countコマンドを紹介する。htseq-countはリードのアライメントデータからカウントデータを出力するために使う…