macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2020

自動化されたProkaryotesのRNA seq解析パイプライン ProkSeq

2020 6/29 補足説明追加。 RNA-seq技術は、導入以来、病原性細菌の研究において異なる条件にさらされた細菌からの複数のサンプルにわたる遺伝子発現の違いを同定し、定量化するために広く利用されてきた。一部の例外を除いて、遺伝子発現を評価するための現…

リファレンスゲノムのアノテーション情報をターゲットゲノムに移す Liftoff

DNA シーケンシング技術と計算手法の向上により、多くの種の高品質なゲノムアセンブリが大幅に増加している。これらのゲノムの生物学を理解するためには、遺伝子の特徴やその他の機能的エレメントのアノテーションが不可欠であるが、ほとんどの種ではリファ…

バクテリアとアーキアのアミノ酸生合成パスウェイを調べる GapMind

2021 1/15 ファイルサイズが大きいと受け付けないエラーが修正されたのを確認 ゲノム配列は何万もの微生物について利用可能である。これらの微生物のほとんどについては、分離された条件以外にその生理学についてはほとんど知られていない。また、酵母エキス…

繰り返し配列を分析する RepeatProfiler

2020 7/7 リンクミス修正 2020 12/6 論文追記 モデル生物におけるDNAリピートの研究は、ゲノムの進化や表現型の変化を促進する多くのプロセスにおけるリピートDNAの役割を浮き彫りにしている。反復配列はシングルコピーDNAよりもはるかにダイナミックである…

TAMA

微生物は様々な環境の中で重要な役割を果たしている。微生物の組成を特定し、その存在量を推定することで、環境試料中の微生物の相互作用を理解することができる。微生物の環境をより深く理解するために、微生物ゲノムのメタゲノムアセンブリを用いて、環境…

ゲノム配列からウィルス配列を同定してアノテーションをつける VIBRANT

細菌や古細菌に感染するウイルスは世界的に豊富であり、ほとんどの環境で宿主の数を上回っている [ref.1,2,3]。ウイルスは、感染時に宿主細胞の代謝状態を再プログラムすることができる義務的な細胞内病原性遺伝要素であり、多様な環境下で毎日20~40%の微…

正確な系統推定のためのアラインメントトリミングツール ClipKIT

2020 12/7 論文引用 2023/07/25 ツイート追記 複数シーケンスのアラインメントにおける発散性の高い部位は、相同性の誤った推論や置換の飽和に起因しており、系統推論に悪影響を及ぼすと考えられている。トリミング手法は、系統推論の前にこれらのサイトを除…

(vertebrateなどの) ラージゲノムをアセンブルするためのパイプライン CSA

脊椎動物ラージゲノムの全ゲノムショットガン(WGS)アセンブリは、過去20年間のバイオインフォマティクス研究の重要なテーマだが、脊椎動物の大型ゲノムについては、単一のバイオインフォマティクスツールを用いて完全にアセンブリされた染色体を得ることは…

メタゲノムのビニング後の解析を行う自動化されたパイプライン MetaSanity

2020 5/29 構成を修正、タイトル変更 2020 6/1 コマンド修正 2021 10/5 ツイート追記 マイクロバイオーム研究の重要性はますます一般的になっており、さまざまな生態系(例:海洋、構築、宿主関連など)を理解するために不可欠である。研究者は、微生物ゲノ…

VCFのSVコールをロングリードでジェノタイピングする SVJedi

2024/05/06 誤字修正 構造変異(SV)の研究は急速に拡大している。その結果、第三世代シークエンシング技術のおかげで、特にヒトゲノムにおいて発見されたSVの数が増加している。同時に、臨床診断のようないくつかのアプリケーションでは、新たにシーケンシ…

ロングリードのマルチプルシーケンスアラインメントを行う abPOA (POAのSIMD実装拡張)

マルチプルシーケンスアラインメント(MSA)問題を解決するために、Leeら(2002)によって最初に導入されたのがPartial order alignment(POA)である。POAでは、MSAをdirected acyclic graph(DAG)(有向無閉路グラフ)として表現し、動的計画法(wiki)(…

メタゲノムデータからウィルスゲノムをアセンブルする metaviralSPAdes

2020 5/25 タイトル修正 2020 11/11 dockerリンク追加 現在知られているウイルスのセットは着実に拡大しているが、これまでのところ、地球上のウイルスのごく一部しかシークエンシングされていない。ショットガンメタゲノムシークエンシングは、新しいウイル…

ゲノムのリアレンジメントを検出して視覚化する smashpp

2020 5/22 追記 ゲノムのリアレンジメントの研究は、染色体の進化や遺伝的疾患、ガンなどの研究に重要な役割を果たしており、その研究は非常に重要である。本研究では、2つのDNA配列間の小規模・大規模なゲノムリアレンジメントを検出し、可視化するためのア…

ゲノムの中の関心がある遺伝子を視覚化する Gcluster

2020 5/27 コメント追加 2020 5/28 -mオプション追記 遺伝子、遺伝子クラスター、およびその近傍のゲノムコンテクストを比較することは、遺伝子の機能や微生物の進化の基盤を決定する上で非常に重要である。現在のところ、多数のゲノムのゲノムコンテクスト…

効率的なVCFの圧縮器と関連ツールを提供する genozip

大規模なゲノムプロジェクトはますます一般的になりつつあり、その結果、数千もの個々のゲノムデータセットからなるVCF(Variant Call Format; (Danecek et al., 2011))ファイルが作成される。圧縮された形式であっても、このようなファイルは非常に大きく(…

アセンブリグラフからメタゲノムのビニングを行う GraphBin

メタゲノミクスの分野では、微生物群集の構造、多様性、生態についての貴重な知見が得られている。メタゲノム解析の重要なステップの1つは、長いコンティグにリードをアセンブリし、メタゲノムサンプル中に存在する異なる種に属するコンティグのグループにビ…

メタゲノムシーケンスデータから菌体の株レベルプロファイリングを行う Snipe

2022/09/06 追記 食中毒は、開発途上国と開発途上国の両方において、世界の食品の安全性と公衆衛生を脅かす顕著な脅威となっている。毎年、病原体に汚染された食品は、米国で約4,800万人の人に病気を引き起こし、12万8,000人が入院し、3,000人が死亡している…

illumina、BGIのシーケンシングリードの前処理を行う Ktrim

次世代シーケンシング(NGS)データは、品質の悪いサイクルやアダプター汚染に悩まされることが多いため、下流での解析の前に前処理を行う必要がある。最新のシーケンサーのスループットとリードの長さはますます増大しており、前処理のステップは、現在のツ…

ショートリードアセンブリからplasmid配列を同定する Platon

プラスミドはchromosomeから独立して複製する染色体外遺伝要素であり、細菌の環境適応において重要な役割を果たしている。プラスミドは、潜在的な移動性または接合能力により、抗菌薬耐性遺伝子や病原性因子の重要な遺伝的乗り物であり、臨床的にも大きな意…

ゲノムのマッピング可能性を調べる GenMap

ゲノムの各位置のk-merの一意性(uniqueness)を計算することは、最大e個のミスマッチを許容しながら計算することが困難である。しかし、CRISPR実験のためのガイドRNAの設計など、多くの生物学的応用には不可欠である。より正式には、一意性または(k, e)マッ…

 シーケンスロゴを作成するpython API Logomaker

シーケンスロゴは、DNA、RNA、タンパク質の配列の生物学的特性を視覚的に説得力のある方法で説明するが、Pythonプログラミング環境内でそのようなロゴを生成してカスタマイズすることは現在のところ困難である。ここでは、公開品質のシーケンスロゴを作成す…

メタゲノムアセンブリのウイルスゲノム品質を評価する CheckV

2020 5/9 誤字修正 2020 12/22 論文追加 ここ数年の間に、メタゲノミクスにより何百万もの新しいウイルス配列のアセンブルが可能になり、地球上のウイルスの多様性に関する知識が大幅に拡大した。しかし、これらの配列は小さな断片から完全なゲノムまで様々…

( メタゲノム)ONTのロングリードをアセンブリしてコンプリートMAGsを生成する lathe

2020 4/29 実行手順修正 細菌および古細菌での完全なメタゲノムアセンブリゲノム(MAG)の新規生成は、マイクロバイオーム研究における長年の目標である。既存のメタゲノムシーケンスおよびアセンブリ法では通常、完成した細菌ゲノムシーケンスが得られない…

(ヒトゲノム)インタラクティブな遺伝子の変異プロットを出力する G3viz

ロリポップダイアグラム は、ガンゲノミクスにおける遺伝子変異のトランスレーショナル効果を可視化し、探索するために広く用いられているグラフィカルな表現の一つである。しかし、使いやすい機能を備えたロリポップダイアグラムツールはまだ不足している。…

全工程が自動化された高速なRNA seq解析webサービス RaNA-Seq(60以上のモデル生物に対応)

2020 4/10 タイトル修正、説明と図追加 RaNA-Seqは、RNA-Seqデータを迅速に解析・可視化するためのクラウドプラットフォームである。FASTQファイルの定量、品質管理指標の計算、発現変動遺伝子の解析の実行、機能解析による結果の説明を可能にすることで、数…

パンゲノムグラフから微生物の多様性を調べる PPanGGOLiN

2020 4/10 引用追加、タイトル修正 2021 1/4 追記 2023/5/30追記 2024/02/26 追記 機能研究、進化研究、疫学研究のために比較ゲノムを使用するには、与えられた種での発現の観点から遺伝子ファミリーを分類する方法が必要である。これらの方法は、通常、分割…

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 4/1 タイトル修正、誤字修正 2020 10/24 仮想環境を解くって導入するように修正 2021 5/23 conda => mambaに修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Meta…

パンゲノムにおいて有意な関連性の遺伝子を検出する Coinfinder

原核生物および真核生物のパンゲノムのアクセサリー遺伝子は、遺伝子水平伝播、loss of gene、および選択の影響により蓄積する。 Coinfinderは、パンゲノム内の相同な遺伝子(遺伝子ファミリー)のセットが偶然に予想されるよりも頻繁に相互に関連または解離…

データベースのゲノム情報とAMR耐性/感受性情報から細菌のAMR表現型を予測する VAMPr

2020 3/37 タイトル修正 Antimicrobial resistance(AMR)は、公衆衛生に対する脅威の増加である。 AMRを決定する現在の方法は、非効率的な表現型アプローチに依存しており、多くの病原体と抗菌薬の組み合わせのAMRメカニズムの理解が不完全なままとなってい…

第3世代ロングリードを使ってアセンブリのギャップを閉じる TGS-GapCloser

2020 9/8 論文追記 2020 10/2 condaインストール追記 2020 10/9 helpとインストール手順更新 ゲノムシーケンシング技術の開発は、この10年間でコストの削減とムーアの法則を超えるスピードでスループットを向上させてきた[ref.1]。遺伝子配列データベースは…