macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2022-03-01から1ヶ月間の記事一覧

疑似マッピングによる原核生物とウイルス集団の正確なメタゲノムプロファイリングを行う KMCP

2022/10/17 help更新 2023/01/05 論文引用、07/26 追記 微生物リファレンスゲノムの増加により、メタゲノム解析の精度は向上したが、分類学的プロファイラーのインデックス作成効率、データベースサイズ、実行時間に対する要件は高くなってきている。また、…

メタゲノムの高感度分類と柔軟な機能アノテーションのためのパイプライン MEDUSA

メタゲノム研究により、微生物群集の分類学的構成や機能の詳細が明らかになった。完全なメタゲノム解析には、目的別に異なるツールが必要であり、これらのツールの選択とセットアップは依然として困難である。さらに、選択したツールセットは、結果で報告さ…

アセンブリグラフを用いたゲノム配列の変換、評価、操作を行う gfastats

リファレンスゲノムの作成が急速に進んでいる現在、ゲノムアセンブリの要約統計量を確実かつ効率的に生成するツールの利用が不可欠となっている。また、新しいアルゴリズムやデータ型の出現に伴い、自動的および手動的なキュレーションによって既存のアセン…

ロングリードを高効率に圧縮する CoLoRd

今日のゲノム研究において、シーケンサー実験によって毎年生み出されるエクサバイト級のデータを維持するためのコストが大きな問題となっている。第三世代シーケンサーの普及にもかかわらず、ロングリードを圧縮する既存のアルゴリズムは、汎用のgzipに対し…

系統樹検索エンジン SHOOT.bio

遺伝子間の進化的関係を明らかにすることは、比較生物学研究の基本である。ここでは、SHOOTを紹介する。SHOOTは、ユーザからのクエリー配列を系統樹のデータベースと照合し、クエリー配列が正しく配置された系統樹を返す。SHOOTはBLAST検索に匹敵する速度で…

コアゲノム推定にメタゲノムアセンブルゲノムを活用するためのロバストなベイズアプローチ mOTUpan

2022/08/20 論文引用 近年のシーケンサーとバイオインフォマティクスの進歩により、メタゲノムアセンブルゲノム(MAG)やシングルセルアセンブルゲノム(SAG)を通じて、環境に関連する未培養クレードのゲノムを提供し、生命の系譜を拡大している。このよう…

複数のゲノムまたはビンからの非冗長化パンゲノムアセンブリを得る SuperPang

2022/303/29 リンク修正、コマンド修正 ゲノムレベルでは、微生物は対立遺伝子と遺伝子組成の両方において高い適応性を持っている。このような遺伝的形質は、異なる環境ニッチに対応して出現し、微生物群集の動態に大きな影響を与える可能性がある。この結果…

シングルセルDNAシーケンシングデータのシミュレータ SimSCSnTree

細胞の進化ツリーを生成し、その枝に沿って一塩基変異(SNVs)やコピー数異常(CNAs)を進化させる新しいシングルセルDNA配列シミュレータSimSCSnTreeについて報告する。このシミュレータで生成されたデータは、特にSNVやCNAが偏在するガンのシングルセルゲ…

condaレシピの自動生成ツール Grayskull

Githubより Grayskullはcondaのレシピを自動生成します。このプロジェクトの主な目的は、conda-forgeのための簡潔なレシピを生成することです。Grayskullプロジェクトは、最終的にconda skeletonを置き換えることを意図して作られています。現在、Grayskull…

ゲノムのBAMファイルを転写産物の BAM/RAD ファイルに変換してsalmonで扱えるようにする mudskipper

2022/03/25 タイトル修正 Githubより mudskipper は、ゲノムの BAM/SAM ファイルをトランスクリプトームの BAM/RAD ファイルに変換するツールです。具体的には、各アラインメントエントリーのゲノム座標を、GTF形式の与えられた転写産物アノテーションに基づ…

真核生物のシンテニックパンゲノムアノテーションを行う GENESPACE

多くの分類群において高品質な複数のリファレンスゲノム配列が利用可能になったことで、分子進化のパターンやプロセスを高解像度で見ることができるようになった。しかし、真核生物のほぼすべての系において、複数のリファレンスハプロタイプの情報を活用す…

塩基配列データから遺伝暗号(コドンテーブル)を予測する Codetta

遺伝暗号は「frozen accident」(参考)であると提唱されてきたが、過去40年間の代替遺伝暗号の発見により、ある程度進化しうることが明らかになった。ほとんどの例はanecdotallyに発見されたものであるため、コドン置換の進化の軌跡や、なぜあるコドンがよ…

ABRIDGE

技術の進歩により、シークエンシングマシンは膨大な量の遺伝子データを生成するようになり、ストレージの需要が増加している。多くのゲノム解析ソフトウエアは、リードアライメントをトランスクリプトームアセンブリや遺伝子数推定などの目的で利用している…

M1 macbook airのベンチマーク(マッピング時間)

2022/03/21 誤字修正 アップルの開発したM1チップのCPUは、高性能な4コアと、性能は控えめですが省電力な4コアの合計8コアからなるbig.LITTLEライクなヘテロジニアスCPUです。ハイパースレッディング技術はないため、OS側から合計8つのコアとして認識さ…

アライメントに基づく配列抽出ソフトウェア ALiBaSeq

シーケンシングデータを解析するためのバイオインフォマティクスソリューションは数多く存在するが、系統樹の作成を最終目的とした全ゲノムシーケンス(WGS)データからの標的配列検索のためのオプションはほとんど存在しない。利用可能なツールは、特に深い…

M1 macにバイオインフォマティクスのツールをインストールする

2022/03/20 文章修正 2022/03/24アンケート結果追記 ご存じの通り、新しいmacはCPUがARMアーキテクチャに移行し、x86-64 darwin向けにコンパイルされたプログラムが実行できなくなりました(まだ販売されているintel macもありますが、選択肢は少なくなって…

ロングリードアンプリコンのソートとコンセンサス配列の構築のためのツール amplicon_sorter

オックスフォード・ナノポア・テクノロジーズ(ONT)は、携帯可能で低コストなシーケンスの可能性から、生態学研究において人気を集めている第3世代のシーケンサー技術である。この技術はロングリードのシーケンスを得意とするが、アンプリコンのシーケンス…

GO enrichment解析結果を要約する GO-Figure!

Gene Ontology(GO)は、大規模アッセイから得られた生物学的データを知識に基づいて計算機で解析し、発見を促す機能的ゲノミクス研究の基礎となるものである。この成功の鍵は、関心のある遺伝子のサブセットに過剰に発現している注釈付き機能を特定すること…

細菌ゲノムとプラスミドの系統に基づく比較ゲノムパイプライン GEnView

ある細菌遺伝子のゲノム座を株や種を超えて比較することで、後天的な移動性、異なる分類群間での保存の度合い、あるいは遺伝子の水平伝播事象の示唆など、その進化に関する洞察を得ることができる。現在までに数千の細菌ゲノムが利用可能であるが、多数のゲ…

seqkitに新しく追加されたコマンドを確認する 其の2

2022/03/14追記 これまで数回に分けてseqkitのコマンドを紹介して来ましたが(リンク)、バージョンアップが続いていて、ありがたいことに新しいコマンドも追加されています(谢谢您)。久しぶりに新機能を確認してみます。 この記事を書いたすぐ後にv2.2が…

複数のリファレンスに同時にマッピングしてリードを分ける BBSplit

SEQanswersより。一部改変(リンク) BBSplitは、BBMapを用いて、複数のリファレンスに同時にマッピングすることで、リードをビン分け(binning)します。リードは、最もよくマップされるリファレンスのビンに分けて書き出されます。また、曖昧さ回避のオプ…

アダプタートリミングと低品質塩基のトリミングを行う並列化実装 Atria

2022/03/13 文章修正 2022/03/15 誤字修正 次世代シーケンサーの進歩により、リードに付着したアダプターや低品質の塩基が 直接的に、あるいは暗黙のうちに、ダウンストリーム解析の妨げとなる。たとえば、偽陽性 一塩基多型(SNP)、断片化したアセンブリが…

バクテリアゲノムとプラスミド配列のアノテーションを行うBaktaのwebバージョン

以前このブログで細菌ゲノム配列およびプラスミド配列のアノテーションを行うBaktaというツールを紹介しました(リンク)。BaktaはFAIRの原則に従った標準アノテーションを高速に実行でき、アノテーション結果をNCBIやENAに直接登録できる(レポジトリ参照)…

バクテリアのヌクレオチド分解能パンゲノムツール Pandora

新しいパンゲノムグラフ構造であるpandoraと、バクテリアのパンゲノム全体のバリアントを同定するアルゴリズムを紹介する。バクテリアの適応性の多くは付属ゲノムに依存しているため、コアゲノムだけのSNPを解析する方法では満足のいく結果が得られない。Pan…

メタゲノム、メタトランススクリプトーム、ncRNAのシークエンシングデータからrRNA配列を正確かつ高速に検出・除去する RiboDetector

2022/03/11追記 2023/03/05 追記 トランスクリプトームやトランスラトーム技術の進歩により、RNAの活性プロファイルやRNAによる制御機構を深く研究することが可能になった。リボソームRNA(rRNA)配列は細胞内RNAの中で非常に豊富に存在するが、ターゲット配…

オーファン遺伝子の発見のための検索エンジン ORFanID

現在、多くのゲノムが解読され、ある分類群の遺伝子のかなりの割合が他の分類群にオルソログ配列を持っていないことが示されている。これらの配列は、通常、1つの種にのみ存在する場合はorphans/ORFansと呼ばれ、より高い分類学上のランクで見つかった場合は…

PacBio CLR ゲノムアセンブリの研磨のためのNextflowワークフロー polishCLR

2023/08/23 論文引用 ロングリードシーケンスにより、染色体レベルの高密度のコンティグが得られるようになり、ゲノムアセンブリは大きく変化した。しかし、Pacific Biosciences (PacBio) Continuous Long Reads (CLR) などの第3世代のロングリード技術によ…

PacBioのbamをfastqに変換し、残存しているPacBioアダプター配列を取り除く HiFiAdapterFilt

第3世代のシーケンサー技術により、ゲノムシークエンシングとアセンブルに革命が起こり、その速度はますます速くなっている。現在のシーケンシング戦略の1つは、PacBio Sequel II装置での高コンセンサス精度サーキュラーコンセンサスシーケンス(CCS)に由来…