macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Bioinformatics

(スモールゲノム)汚染されたシークエンシングデータをフィルタリングしながらアセンブリする半自動化されたパイプライン WGA-LP

DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行す…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

バリアントエンリッチメント解析を行うshinyサーバー Varanto

ゲノムワイド関連研究(GWAS)は、一塩基多型(SNPs)などの遺伝的バリアントと特定の形質や疾患との関連を明らかにすることを目的としている。これらの結果をさらに探求し、解釈するためには、パスウェイ、生物学的プロセス、疾患との関連などの共通テーマ…

SeqWho

シーケンサー技術の大幅な向上とプロトコルの増加により、シーケンサーは複雑な生物学的問題に答えるために使用されるようになってきた。それに伴い、解析パイプラインはより時間と複雑さを増し、通常、非常に大規模な事前検証ステップを必要とするようにな…

シーケンスデータ中のウイルス・微生物検出を高速に行う RabbitV

シークエンスデータに含まれるウイルスや微生物の検出・同定は、病原体の診断や研究において重要な役割を担っている。しかし、この問題のための既存のツールは、しばしば高い実行時間とメモリ消費に悩まされている。本著者らは、ユニークなk-merの高速同定に…

plotsr

第3世代のゲノム解読技術により、高品質のゲノムアセンブリの数が急激に増加している。このため、個々の生物種の複数のアセンブルゲノムを比較することが可能になり、その構造的特性を可視化するための新しいツールが求められている。ここでは、ゲノム間の構…

アセンブリした配列から欠落している領域を調べる SASpector

原核生物ゲノムのショートリードアセンブリにおける欠損領域は、しばしばシーケンス技術の偏りや繰り返しエレメントに起因するとされ、前者は特定の遺伝子座のシーケンスカバレッジの低さ、後者はde novoアセンブリグラフの未解決ループに起因するとされる。…

GTDB-Tkのversion 2

2022/05/12 追記 2022/06/03 古いツイートを消去 2022/07/23 preprint引用 2023/10/21 v2.3.2追記 GTDBとその分類ツールであるGTDB-tkは原核生物ゲノムの分類によく使われるようになりました。しかし、GTDB-tkのclassiyコマンドはメモリ要求量が高く、2021年…

大規模RNA-seqデータセットのマッピングされたリードの集約と要約のための効率的な方法 TieBrush

シーケンシングデータをプログラムで要約し、視覚的に検査する機能はゲノム解析に不可欠だが、現在利用可能な方法は、大量のサンプルに対応できるものではない。特に、数千のRNA-seqサンプル間の転写背景を視覚的に比較することは、利用可能な計算機資源によ…

窒素循環系遺伝子のメタゲノムプロファイリングのためのキュレーションされた統合データベース NCycDB

窒素(N)サイクルは、地球生態系における重要な生物地球化学的経路の集合体であり、生態学や環境学の分野で広く注目されている。現在、ショットガンメタゲノムシーケンスは、窒素サイクルプロセスを担う遺伝子ファミリーの探索に広く応用されていまる。しか…

疑似マッピングによる原核生物とウイルス集団の正確なメタゲノムプロファイリングを行う KMCP

2022/10/17 help更新 2023/01/05 論文引用、07/26 追記 微生物リファレンスゲノムの増加により、メタゲノム解析の精度は向上したが、分類学的プロファイラーのインデックス作成効率、データベースサイズ、実行時間に対する要件は高くなってきている。また、…

シングルセルDNAシーケンシングデータのシミュレータ SimSCSnTree

細胞の進化ツリーを生成し、その枝に沿って一塩基変異(SNVs)やコピー数異常(CNAs)を進化させる新しいシングルセルDNA配列シミュレータSimSCSnTreeについて報告する。このシミュレータで生成されたデータは、特にSNVやCNAが偏在するガンのシングルセルゲ…

細菌ゲノムとプラスミドの系統に基づく比較ゲノムパイプライン GEnView

ある細菌遺伝子のゲノム座を株や種を超えて比較することで、後天的な移動性、異なる分類群間での保存の度合い、あるいは遺伝子の水平伝播事象の示唆など、その進化に関する洞察を得ることができる。現在までに数千の細菌ゲノムが利用可能であるが、多数のゲ…

ロングリードから染色体特異的テロメア長を報告する Telogator

テロメアは、真核生物の染色体末端に見られる繰り返し配列で、多くの細胞で分裂時にその平均長が短くなることから、「体内時計」と考えられている。テロメアの長さの異常は、老化との関連に加え、複数の癌やテロメア短小症候群との関連や、様々な疾患の危険…

模擬微生物コミュニティとそのアンプリコンシークエンシングリードを発生させるための多機能ソフトウェア M&Ms

シーケンシング技術の進歩に伴い、16S rDNAシーケンスデータの解析を目的とした多くのバイオインフォマティクスツールが開発されている。これらのツールをテストするためには、異なる環境からのサンプルに類似したデータセットをシミュレートすることが重要…

翻訳された遺伝子のマッチングを迅速に同定、分類、アノテーションするためのツール GAMMA

参照データベースを用いて微生物配列の遺伝子を同定するために用いられるツールは、一般に一致度をパーセントで報告するが、配列同一性が100%未満の場合、特定のアミノ酸の変化が基質結合領域や酵素活性部位で起こる場合など、タンパク質の機能に劇的な影響…

高効率なカバレッジ計算ツール BamToCov

2022/02/25 論文引用 多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは…

オックスフォードナノポアシークエンシングリードのトリミングツール ProwlerTrimmer

トリミングおよびフィルタリングツールは、配列アラインメントの精度を高め、結果の信頼性を向上させるため、DNAシーケンス解析において有用である。オックスフォード・ナノポア・テクノロジー(ONT)のトリミングおよびフィルタリングツールは、現在のとこ…

真核生物の比較ゲノミクスのためのゲノムブラウザ Genomicus

Genomicusは、真核生物の比較ゲノミクスに特化したデータベースおよびウェブサーバである。Genomicusの主な機能は、複数のゲノム間でのゲノムブロックの保存状態をグラフィカルに表現することであり、特定の遺伝子を中心とした局所的な保存状態や、核型比較…

Circosプロットをインタラクティブに作成するためのR/Shinyアプリケーション shinyCircos

2023/11/01 URL修正 Circosプロットの作成は、ゲノムデータを視覚化する最も効率的なアプローチの一つである。しかし、Circosプロットを作成するための既存のツールをインストールして使用することは、コーディングの経験がないユーザーにとっては難しい。こ…

miRNA解析の手法を集めたプラットフォーム Tools4miR

miRNAは、遺伝子の発現を抑制する短いノンコーディング分子であり、生物にとって重要な役割を果たしている。miRNA関連の研究のために、何十もの計算手法が開発されているが、それらはさまざまな面で大きく異なっている。比較が難しい手法が数多く存在するた…

アセンブルされた微生物ゲノムのクオリティ評価を行う miComplete

2022/03/18 インストール手順追記 ハイスループットシーケンスの開発により、大規模なシーケンスプロジェクトが手頃な価格になり、可用性がますます向上している。膨大な量のメタゲノムデータが生成され、未培養微生物から数千のmetagenome-assembled genome…

深層学習に基づく真核生物配列の分類ツール Tiara

多くのメタゲノムデータが利用可能になるにつれ、真核生物のメタゲノム解析が新たな課題として浮上してきた。真核生物の核およびオルガネラのゲノムを適切に分類することは、真核生物の多様性をより深く理解するために不可欠なステップである。 メタゲノムデ…

ロングリードのシミュレータ PBSIM2

近年、PacBioやOxford Nanoporeなどのハイスループットのロングリードシーケンサーが登場し、ショートリードシーケンサーに比べてエラーの多いロングリードが生成されるようになった。リードのエラー率の高さに加えて、エラーの不均一性は、ロングリードを用…

機械学習の手法でエミュレートされたBWA-MEM: BWA-MEME

次世代シーケンサーの普及やシーケンサーのスループットの向上に伴い、効率的なショートリードのアライメントが求められているが、その中でもシーディングは主要な性能ボトルネックの一つとなっている。Seeding phaseのキーとなるチャレンジは、リファレンス…

ロングリードを使ったSNVとSVのフェーシングを行う LongPhase

ロングリード・フェーシングは、二倍体ゲノムの再構築、バリアント・コーリングの改善、メタゲノミクスにおける微生物株の解決などに用いられてきた。しかし、既存の手法では、大きな構造変化(Structural Variation: SV)によって位相差ブロックが破壊され…

メタゲノムアセンブリの品質評価を行う DeepMAsED

アセンブリーの品質を評価する手法の多くは、リファレンスゲノム(アセンブリを比較するためにキュレートされたゲノムのセット)を必要とする。そのような手法として、コンティグを1つ以上のリファレンスゲノムにマッピングして、逆位、リアレンジメント、種…

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

2022/01/13 論文引用 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

SAMファイルのFLAG値と属性の関係を確認するHP

2021 8/24 誤字修正 SAMファイルのFLAGフィールドは、10進数で0から65535 (2^16-1) の間の値を取る。bitwise FLAG になっていて、2の累乗(2^n)でアラインメントの状態(プロパティ、属性)が定義できる。複数の属性を定義できるようになっている。各桁の…

真菌ゲノムのアノテーションパイプライン FunGAP

ゲノム解析が成功するかどうかは遺伝子予測の質にかかっている。fungalゲノムの解読とアセンブルは容易になったが、そのアノテーション手順はまだ標準化されていない。FunGAP は、真菌ゲノムアセンブリ中のタンパク質をコードする遺伝子を予測するプログラム…