macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2023-08-01から1ヶ月間の記事一覧

マルチプルアライメントと系統樹構築を行う Seaviewのバージョン5

Seaviewバージョン5(*1) 分子配列データからマルチプルアライメントと系統樹構築を行うマルチプラットフォーム・プログラム、Seaviewバージョン5を紹介する。Seaviewは、配列データベースへのネットワークアクセス、任意のアルゴリズムによるアラインメン…

タンデムリピートのアノテーションを行う TRASH

ロングリードDNAシーケンスの登場により、多くの真核生物のセントロメアに見られるメガベーススケールのサテライトリピート配列など、高度に反復したゲノム領域の完全なアセンブリが初めて可能になった。このような反復領域のアセンブリにより、高次反復パタ…

大規模な系統学的データセットを削減する Treemmer

大規模な塩基配列データセットは、視覚化するのも扱うのも難しい。さらに、それらはしばしば自然の多様性のランダムなサブセットを表しているのではなく、調整されていない便宜的なサンプリングの結果である。その結果、冗長性やサンプリングバイアスに悩ま…

5995WXのマッピング時間のベンチマーク

2023/08/23 グラフ修正 ZEN3世代のTR5995WXがZEN2世代の3990X(PROなら3995WX)からどのくらい性能が向上しているのかを調べるため、fastqのマッピングにかかる時間を比較する簡単なベンチマークを行いました。使用したのは線虫の全ゲノムショートリードシー…

大規模な微生物パンゲノムを構築し、ゲノムを追加することも可能な PanTA

2024/03/22 追記 パンゲノム解析は、1つのクレード内の単離株間で遺伝子含有量のばらつきが大きいため、細菌ゲノム解析において不可欠となっている。細菌ゲノムコレクションからパンゲノムを構築するための多くの計算手法が存在するが、急速に増加するゲノム…

植物の比較トランスクリプトームデータベース Plant Expression Omnibus(PEO)

Plant Expression Omnibus (PEO)は、100以上の植物種、約60,000の手作業でアノテーションされたRNA-seqサンプル、400万以上の遺伝子の遺伝子発現に関する知見を生物学者に提供するウェブアプリケーションである。このツールにより、ユーザーは異なる器官にわ…

>100,000の植物論文アブストラクトを網羅するナリッジネットワーク PlantConnectome

遺伝子の機能予測は生物学の理解に不可欠である。しかし、これらの予測は、実験的に特徴付けられた遺伝子の大規模なコレクションに依存しており、そのコンパイルには労力と時間がかかるだけでなく、科学文献の量と多様性を考慮すると不可能に近い。ここでは…

(RNA seqの下流解析のための)深層学習ベースのスプライシングジャンクション予測ツール Splam

2023/08/18更新、タイトル変更 イントロンを除去するためにメッセンジャーRNAをスプライシングするプロセスは、遺伝子や遺伝子バリアントを作り出す上で中心的な役割を果たしている。ここでは、深層残差畳み込みニューラルネットワークに基づく、DNA中のスプ…

ユーザーフレンドリーなナノポアロングリードの転写解析プラットフォーム NanopoReaTA

オックスフォード・ナノポア・テクノロジーズ(ONT)のシーケンスプラットフォームは、シーケンス中にリアルタイム解析を実行する優れた機会を提供する。この機能により、実験データに対する早期の洞察が可能になり、さらなる解析のための潜在的な意思決定プ…

完全な環状ゲノムの開始位置(+1)を素早く変更する Dnaapler

レポジトリより(一部改変) Dnaaplerはシンプルなpythonプログラムで、一塩基の入力配列(FASTA形式)を受け取り、アミノ酸配列データベースに対してblastxを用いて目的の開始遺伝子を見つけ、この遺伝子の開始コドンが見つかったかどうかをチェックし、見…

どれだけ知られていないかを基にタンパク質をランク付けする Unknomeデータベース

ヒトゲノムには約2万個のタンパク質がコードされているが、その多くはまだ解明されていない。科学研究は、よく研究されているタンパク質に焦点を当てがちであることは明らかであり、未解明の遺伝子が不当に軽視されているという懸念につながっている。この問…

GTDBのtaxonomyとゲノムからKrakenデータベースを作成する GTDB_Kraken

2023/08/11 説明を修正 GTDBでもサードパーティとして紹介されているが、レポジトリGTDB_KrakenでGTDBのリリースR86のkrakenデータベースが公開されている(属レベルでアサインされていない分類 (g__) は排除されている)。ビルド済みなので、ダウンロードし…

FASTAおよびFASTQファイルを大規模処理する BigSeqKit

ハイスループットシーケンス技術により、利用可能なシーケンスデータの量はかつてないほど爆発的に増加しており、それらは通常FASTAファイルやFASTQファイルとして保存されている。配列データを生物学的知識に変換する目的で、この種のファイルを処理・操作…

正確で拡張可能な系統樹を構築する uDance

2023/08/05 間違った説明を修正 系統樹は、生命のツリーを横断して進化の歴史を整理するための枠組みを提供し、メタゲノム同定などの下流の比較解析に役立つ。16S rRNAのような単一マーカー遺伝子に依存する手法では、数十万種の生物で精度の低い系統樹が作…

タンデムリピートなどのゲノムの繰り返し領域をドットプロットで可視化する Mod.Plot

レポジトリより Mod.Plotは、StainedGlassと同様にタンデムリピートを表示するための新しいドットプロット可視化ツールです。Mod.Plotは、配列の同一性を推定するためにJaccard係数を計算するmodimizerを利用している。これにより、これらのプロットを作成す…

複数のゲノム間で保存された遺伝子クラスターを同定する Spacedust

レポジトリより Spacedustは、相同性と遺伝子近傍の保存性に基づいて、複数のゲノム間で保存された遺伝子クラスターを同定するためのモジュール型ツールキットである。Foldseekの高速かつ高感度な構造比較とMMseqs2の相同性検索機能を利用している。ゲノム間…