macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

API

タンパク質の機能的アノテーションを行う AnnoPRO

タンパク質の機能アノテーションは生物科学における長年の課題の一つであり、様々な計算手法が開発されてきた。しかし、既存の方法では、GOファミリーの数が多く、アノテーションされたタンパク質が少ないという深刻なロングテール問題に悩まされている。そ…

1行のコードでゲノムデータベースへの様々な問い合わせを行う gget

ゲノムデータの解釈には、既存のリファレンスデータベースとの関連で結果を評価することが繰り返し課題となっている。コマンドラインやPythonの利用者が増加する中、大規模な公開ゲノムデータベースの多様なコレクションに保存されているキュレーションされ…

5′上流に保存されたuORFをアノテーションする uORF4u

原核生物および真核生物において、上流のオープンリーディングフレーム(uORF、いわゆるリーダーペプチドをコードすることが多い)は、下流のメインORF(mORF)の翻訳と転写を制御することができる。しかし、新規機能性uORFのアノテーションは、通常100コド…

大規模なタンパク質構造セットを効率的に圧縮する Foldcomp

高精度なタンパク質構造予測により、数億個のタンパク質構造が生成されているが、これらは保存と処理の点で課題がある。本著者らは、この課題に対処するために、新しい非可逆構造圧縮アルゴリズムと索引付けシステムであるFoldcompを発表する。Foldcompは、…

アラインメント操作と要約統計量の計算のための高速なツールキット AMAS

近年、系統学で用いられるデータ量は爆発的に増加しており、数百から数千の遺伝子座と多数の分類群から多くの系統が推定されている。このような最新の系統学研究では、遺伝子のサブセットや連結配列の多重解析に加え、各遺伝子座の個別解析が必要となること…

MG-RASTの公開データをダウンロードする mg-download.py 

MG-RAST-ToolsはMG-RAST開発者が作成した様々利用ケースに対応するためのAPI アクセスを可能にするスクリプトで、The MG-RAST metagenome portal(リンク)のレポジトリとして公開されています「。多数のスクリプトが含まれていますが、その中で、mg-downloa…

nanopore direct RNA seq(DRS)の転写産物量を正確に定量する NanoCount

2022/02/15 追記、コマンド修正 遺伝子やアイソフォームの発現変化を正確に定量することは、細胞の機能、分化、疾病の理解に不可欠である。ロングリードDirect RNA Sequencing (DRS) を用いた完全長ネイティブRNAのシーケンスは、RNAの断片化、cDNA合成、PCR…

GSEApy

Enrichrは哺乳類の遺伝子セットエンリッチメント解析ツールで、転写制御、パスウェイ、GOやヒトの表現型のオントロジー、薬剤で処理した細胞からのシグネチャーなどが収録されている(wiki)。GSEApyはEnrichrのPythonラッパーで、コマンドラインやPython上…

COBS index

Githubより COBS(COmpact Bit-sliced Signature index)は、invertedインデックスとブルームフィルタを掛け合わせたものである。DNAサンプルのk-merやテキスト文書のq-gramsをインデックス化し、ユーザが選択したカバレッジ閾値を持つコーパスに対して近似…

ANIを計算する改善されたアルゴリズム orthoani

細菌・古細菌における種の分類は、主にゲノム全体の関連性に基づいて行われており、現代の微生物学の枠組みとなっている。現在、2つの系統間の類似度は、実験的に決定されたDNA-DNAハイブリダイゼーション(DDH)による類似度から、ゲノム配列に基づく類似度…

ONT ダイレクトRNA seqで修飾された塩基を検出する nanocompore

RNA分子は、その構造や相互作用に影響を与える転写後修飾(PTM)を受けている。現在までに、150以上の天然に存在するPTMが同定されているが、その機能の大部分は未だ不明である。近年、少数のPTMが、ハイスループットシーケンシングを用いた実験的アプローチ…

ONTのメチレーションコールを視覚化する Methplotlib

2020 7/24 追記 DNA配列を変化させないエピジェネティックな共有ヌクレオチド修飾は、トランスポゾンの抑制、発生時の発現調節、インプリンティングされた発現およびX染色体サイレンシングを含む多くの機能を有し(Gigante et al、2019; GreenbergおよびBour…

 シーケンスロゴを作成するpython API Logomaker

シーケンスロゴは、DNA、RNA、タンパク質の配列の生物学的特性を視覚的に説得力のある方法で説明するが、Pythonプログラミング環境内でそのようなロゴを生成してカスタマイズすることは現在のところ困難である。ここでは、公開品質のシーケンスロゴを作成す…

ヒトとマウスの様々なアライナー用indexやアノテーションをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 2022/04/19 画像追加 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、そ…

効率的なk-merカウンタ kmcEx

K-merは、それらの頻度と共に、エラー訂正、リピート検出、マルチプルシーケンスアラインメント、ゲノム構築などの基本的なビルディングブロックとして役立ち、k-merカウントにおける集中的な研究を引き付けた。ただし、k-merカウンタの出力自体は大きい。非…