macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021-04-01から1ヶ月間の記事一覧

Nanoporeのシステマティックなエラーを修正する Homopolish

ナノポアシーケンスは、微生物ゲノムの再構築に広く利用されている。ゲノム上のエラーは、エラー率が高いため、ナノポアリードで学習したニューラルネットワークによって修正される。しかし、システマティックなエラーは通常修正されない。本論文では、Nanop…

メタゲノムコンティグのscaffoldingを行う MetaCarvel

2021 8/23 インストール手順と実行手順を追記 メタゲノムデータからゲノムセグメントを再構築することは非常に複雑な作業である。リピートやシーケンスエラーなどの一般的な課題に加えて、メタゲノムアセンブリでは、コミュニティ内の生物間のカバレッジの深…

ショートリードを忠実にマッピングする mmp

マッピングとは、あるDNAリードの元の位置を参照配列(通常はゲノム)の中から探し出すプロセスである。ショートリードマッパーは、ハイスループットシーケンシングを伴うほとんどのアプリケーションで使用されるソフトウェアツールである。そのため、ニーズ…

バクテリアの表現型をゲノムから予測する Traitar

2023/12/07 dockerのコマンド修正 配列決定されたゲノムの数は飛躍的に増加しており、データの生成からゲノムの解釈に至るまでのボトルネックが大きく変化している。形質は、細菌を特徴づけたり区別したりするためによく用いられ、微生物群集組成の原動力と…

メタゲノムデータセットのカバレッジを推定する Nonpareil 3

2021 4/27 誤字修正 2018年のNonpareil3の論文より メタゲノムデータセットに基づく微生物群集の多様性の推定は、不十分な網羅性やリファレンスデータベースに依存する多様性の推定に起因するバイアスの影響を受け、その程度は未知数であることが多い。例え…

ナノポアリード用の新しい高精度メタゲノム分類器 BugSeq

20211114 論文引用 メタゲノム解析にナノポアシーケンサーを使用する機会が増えるにつれ、ロングリードの分類学的な分類を高速かつ正確に実行できるツールが必要となっている。既存のツールは、ショートリードデータ用に設計されているか(例:Centrifuge)…

古代DNAの損傷パラメータを推定する mapDamage2

骨や歯の化石、コプロライト、堆積物、ミイラ化した標本、博物館のコレクションなどに含まれるAncient DNA(aDNA)分子は、進化生物学者にとって素晴らしい情報源であり、過去の伝染病の原因や過去の集団の動態を明らかにしてくれる。しかし、aDNA の分析に…

真菌群集を解析するユーザーフレンドリーなwebサーバー DAnIEL

ヒトの体内や体の中には、あらゆる生物界を代表する何兆もの微生物が生息しており、宿主の発生や生理に重要な役割を果たしている。この10年間で、細菌の配列を解析するためのオンラインツールやサーバーが十数種類開発され、パブリックドメインでアクセスで…

docker環境にツールを導入していくためのベースイメージを作る。

Dockerイメージ作成時のベースイメージを作って、それをpullするようにすると捗ります。試してみます。 ここではcondaコマンドを使えるようにminiocndaを導入するイメージを作成します。それからこのイメージをベースに新しいイメージを作成します。 1:ベ…

曖昧さを考慮したドットプロットによる視覚的な配列解析を行う FlexiDot

FlexiDotはクロスプラットフォームのドットプロットスイートで、高品質の自己、ペアワイズ、all versus allのビジュアライゼーションを生成する。コンセンサス配列とエラーの多い配列を比較する際のドットプロットの適合性を向上させるために、FlexiDotは曖…

bamのカバレッジを素早くプロットする tinycov

Githubより Tinycovは、BAMファイルのカバレッジを素早くプロットする、Pythonで書かれた小さなスタンドアロンのコマンドラインユーティリティです。このソフトウェアは、Matt Edwards氏のゲノムカバレッジプロッター(Github)に影響を受けています。入力と…

機能的エンリッチメント解析のためのウェブツール WebGestalt

WebGestaltは、大規模な-オミクス研究から得られた遺伝子リストを解釈するための人気のツールである。2019年のアップデートでは、WebGestaltは12の生物、342の遺伝子識別子、155 175の機能カテゴリをサポートしており、ユーザーがアップロードした機能データ…

de-novo assembled transcriptomeのORF予測を行う Borf

RNA-Seq解析やトランスクリプトームのアノテーションにおいて、de-novoでアセンブルされたトランスクリプトームのORF予測は重要なステップである。しかし、現在のアプローチでは、ストランド特異性や不完全に組み立てられた転写産物などの要因を適切に考慮し…

スモールオープンリーディングフレーム(smORF)を予測する ORFLine

2021 4/21 追記 100コドン以下(300ヌクレオチド以下)の小さなオープンリーディングフレーム(smORF)のアノテーションは、ゲノム上にそのような配列が多数存在するため、困難を極める。しかし、近年の次世代シーケンスおよびリボソームプロファイリングの…

DIAMOND用のCOGデータベースを作成するスクリプト COG

Githubより 微生物のメタゲノムやメタトランスクリプトームをアノテーションする際、生物のアノテーションだけでは不十分なことが多く、時には機能的アノテーションも必要となる。ゲノムの機能アノテーションに便利なデータベースとして、NCBIが管理するCOG…

Bowtie 2を使って素早くホスト由来のリードを除く

2021 4/16 タイトル変更、文章修正, 画像差し替え 2022/07/01、09/07 追記 2023/10/17 追記 Bowtie 2の--un-concオプションを使うと、リファレンスに適切にマッピングされなかったペアエンドリード(discordant read pairs)を別出力できる。このオプション…

ドラフトアセンブリからプラスミドを同定する MOB-suite

コストパフォーマンスの高いIllumina社のショートリードシーケンシングにより、大規模な細菌集団遺伝学研究が日常的に行われるようになった。しかし、プラスミドのアセンブリが不完全であるため、プラスミドの含有量を分析することは依然として困難である。…

バクテリアのゲノムやプラスミドのアノテーションを行う Bakta

2021 5/18 ツイート追加 2021 11/11 論文引用 2022/03/10 help更新2023/10/16 インストール手順修正(python3 => python 3.10) Baktaは、バクテリアのゲノムやプラスミドのローカルなアノテーションを迅速かつ標準化するためのツールである。dbxref-richやs…

GenBankファイルから配列とメタデータを取り出す gbmunge

この小さなCプログラムgbmungeは、GenBankファイルをFASTA配列とタブで区切られたメタデータに変換する。 GenBankファイルから以下の情報を抽出する。 名前 アクセッション 長さ 投稿日 ホスト 国 収集日 これらの情報を抽出するだけでなく、日付はBEASTのよ…

渦鞭毛藻類のゲノム情報をまとめたデータベース SAGER

渦鞭毛藻類は,サンゴやその他の無脊椎動物に不可欠な内共生生物である。渦鞭毛藻のゲノム構造と機能に関する情報は、サンゴの共生や白化現象を理解する上で非常に重要である。近年、シーケンシング技術の急速な発展に伴い、Symbiodiniaceaeの数種および多様…

ゲノムベースの分類学のための自動化されたハイスループットプラット TYGS

微生物の分類学は、ゲノムベースの計算手法の影響を受けつつある。しかし、このような解析は複雑で、専門家の知識が必要となる場合がある。TYGS(Type (Strain) Genome Server)は、ゲノムベースの原核生物分類学のためのユーザーフレンドリーなハイスループ…

マニュアルキュレーションされたシアノバクテリアのデータベース CyanoType

ここで紹介するデータセットは、CyanoType(http://lege.ciimar.up.pt/cyanotype)と名付けられた、関連するシアノバクテリア株のオンラインデータベースの基礎となるものである。このデータベースは、分類学的、系統学的、あるいはゲノム学的に有用なシアノ…

バクテリアゲノムデータセットからリンクされた遺伝子を探す SLING

オペロンおよび機能的に連結された遺伝子アレイは原核生物ゲノムにおける転写構成の最も基本的な単位を表す。同じプロセスまたはパスウエイに関与する遺伝子は単一のブロックにコードされ、同じ調節の下で転写される。多くの臨床的に重要な遺伝子システムが…

自動化された真核生物の遺伝子アノテーションツール FINDER

2021 9/1 論文追記 2022/12/27 追記 真核生物の遺伝子アノテーションは、蓄積された転写産物のデータを緻密に解析する必要があり、簡単な作業ではない。真核生物の遺伝子アノテーションには、重複する遺伝子を含むゲノムの転写活性領域、多数の転写産物を産…

リファレンスベースのNANOpore FASTQの圧縮器 RENANO

ナノポア・シーケンシング技術は、短時間で大量のゲノムデータを生成できることもあり、急速に普及している(72時間以内に最大8.5TBのデータを生成)。送信や保存のコストを削減するためには、この種のデータに対する効率的な圧縮方法が必要である。ショート…

スモールゲノムのアセンブリ精度を評価する assembly_accuracy

assembly_accuracyはminimap2を使ってアセンブリの精度を評価するツール。相同な配列によって学習したモデルを使って、Nanoporeのシステマティックなエラーを他のニューラルネットワークのツールより高い精度で修正するHomopolishの論文で、アセンブリエラー…

メタゲノムのアセンブリを行う hifiasm-meta

2021 10/19 プレプリント引用 2023/07/06 追記 現在のメタゲノムアセンブラは、ショートシーケンスリードやノイズの多いロングリード用に開発されたもので、正確なロングリードには最適化されていない。ここでは、最近のデータの高い精度を利用した新しいメ…

アセンブリのinterrupted ORFsを評価する ideel

ideelはバクテリア/微生物ゲノムアセンブリの中断されたORFの評価を行うツール。 2023/05/17追記 I've updated the repo to make it easier to install and run:https://t.co/W1DQw9wwGm — Mick W@tson ↙️ (@BioMickWatson) May 16, 2023 導入がより簡単にな…