macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Genome Biology

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

2022/01/13 論文引用 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

ウィルスゲノムの株を識別したde novoアセンブリを行う Haploflow

ウィルス感染症では、共同感染や宿主内での進化により、複数の関連するウィルス株が存在することが多い。HaploflowはdeBruijnグラフをベースにしたアセンブラで、新しいフローアルゴリズムを用いて混合されたシークエンシングサンプルからウイルスの株レベル…

Referee

次世代シーケンサ技術を用いたゲノムアセンブリは、今や生物学研究に欠かせないものとなっているが、シーケンサやアセンブリのプロセスの多くは依然としてエラーが発生しやすい状態にある。残念ながら、これらのエラーは下流の解析に伝播し、結果や結論に大…

Nanoporeのシステマティックなエラーを修正する Homopolish

ナノポアシーケンスは、微生物ゲノムの再構築に広く利用されている。ゲノム上のエラーは、エラー率が高いため、ナノポアリードで学習したニューラルネットワークによって修正される。しかし、システマティックなエラーは通常修正されない。本論文では、Nanop…

メタゲノムコンティグのscaffoldingを行う MetaCarvel

2021 8/23 インストール手順と実行手順を追記 メタゲノムデータからゲノムセグメントを再構築することは非常に複雑な作業である。リピートやシーケンスエラーなどの一般的な課題に加えて、メタゲノムアセンブリでは、コミュニティ内の生物間のカバレッジの深…

機械学習によって適したパラメータ設定でNGSのデータの自動クオリティフィルタリングを行う seqQscorer

次世代シーケンシング(NGS)データファイルの品質管理は、必要ではあるが複雑な作業である。この問題を解決するために、一般的なNGSの品質特徴を統計的に特徴づけ、ツリーベースの分類アルゴリズムと深層学習分類アルゴリズムを用いた新しい品質管理手法を…

細菌の代謝パスウェイを予測し、正確な代謝モデルを再構築するための情報を提供する gapseq

微生物のゲノムスケールの代謝モデルは、生物の遺伝子型から表現型を予測するための強力なフレームワークである。しかし、手動での再構築は手間がかかる一方で、自動再構築では既知の代謝プロセスを再現できないことがよくある。gapseqは、精査された反応デ…

疑わしいスプライスジャンクションをフィルタリングし、2パスで再アライメントをガイドする 2passtools

真核生物のゲノムの転写には、RNAの複雑な代替処理が関与している。ロングリードを用いた完全長RNAのシーケンスは、処理の真の複雑さを明らかにする。しかし、ロングリードシーケンス技術の比較的高いエラー率は、イントロン同定の精度を低下させる可能性が…

データベースやゲノムアセンブリの汚染・キメラアセンブリ配列を調べる conterminator

2022/06/22 タイトル修正, インストール手順追記 公的・私的リポジトリのゲノム数は、少なくとも過去10年間で急増しており、その主な理由は、塩基配列決定にかかる費用が急速に低下したことにある。また、公開されているゲノムデータベースGenBankは、EMBLや…

配列をアセンブリグラフにマッピングしてグラフを拡張する minigraph

最近のシーケンシング技術の進歩により、個々のゲノムを参照ゲノムの質に合わせて組み立てることが可能になった。同一種からの複数のゲノムを統合し、統合された表現を生物学者が利用できるようにするにはどうすればよいのかは、依然として未解決の課題であ…

原核生物のゲノムアセンブリでキメラや汚染を調べる GUNC

2021 1/18 解析例追加 2021 6/15 論文引用 2022/06/16 コマンド更新、10/13 追記 ゲノムは原核生物の系統の遺伝的青写真であり、現在進行中の微生物世界のセンサスの中心にある微生物学の基本単位であり、微生物の生態と進化の研究に不可欠なものである。199…

最適なマッパーとパラメータを決定するのを支援する Teaser

最近のシーケンシング技術とアプリケーションの進歩は、次世代シーケンシング(NGS)のリードをリファレンスゲノムにアラインさせる方法(リードマッピング)の急速な成長につながっている。2015年半ばまでに、100種類近くのマッパーが利用可能になったが、…

de novoでTEを見つけてアノテーションをつけるパイプライン EDTA

2021/11/26 追記 シーケンス技術とアセンブリアルゴリズムは成熟し、大規模で反復性のあるゲノムでも高品質なde novoアセンブリが可能になってきた。現在のアセンブリは、トランスポーザブルエレメント(TE)をトラバースし、TEのアノテーションを可能にして…

メタゲノムのビニングされた真核生物由来コンティグの品質を調べる EukCC

微生物のDNAは日常的に抽出され、配列決定され、ゲノムにアセンブリされている。回収されたゲノムの品質を推定することは、不完全なゲノムや汚染されたゲノムが公表されるのを防ぐために非常に重要である。シングルコピーマーカー遺伝子(SCMG)は、新たにア…

RNA seqのロングリードをリファレンスフリーでクラスタリングする RATTLE

2021 1/12 helpと解析例追加 2022/04/19 ツイート追加 ナノポアを用いた1分子ロングリードシークエンシングは、あらゆるサンプルからトランスクリプトームを測定する前例のない機会を提供する。しかし、現在の解析方法では、リファレンスゲノムやトランスク…

(ヒトゲノム)高速かつ精度の高いロングリードのSVコーラー cuteSV

2021 5/6 インストール手順、help、コマンド更新 構造変化(SV)とは、欠失、挿入、逆位、重複、転座などのゲノムリアレンジメントで、その大きさが50 bpを超えるものを指す。ヒトゲノム上で最大のdivergencesとして、SV はヒトの疾患(遺伝性疾患やガンなど…

リアルデータに忠実なショートリードをシミュレートする ReSeq

2021 2/20 論文引用、condaによるインストール追記 2021 3/1 追記 2021 5/25 エラーについて追記 ハイスループットのシーケンシングデータでは、生データから科学的な結果に至るまでのデータ処理において、計算ツール間の性能比較は、情報に基づいた意思決定…

marginPhase

リファレンスベースの遺伝的変異の同定は、ジェノタイピングとphasingという2つの関連プロセスから成り立っている。ジェノタイピングは、個人のゲノムにどのような遺伝的変異が存在するかを決定するプロセスである。ある部位の遺伝子型とは、両方の染色体コ…

mobile element を検出する Mobster

転移因子(ME)は自律的にコピーしたりゲノム上を移動したりすることができるDNA配列だが、その高度に反復的な配列構造のために検出が困難である。MEは、ゲノム構造を変化させる主要な進化ドライバーであるだけでなく、機能的に重要な領域に挿入され、遺伝子…

オルガネラゲノムをターゲットアセンブリする GetOrganelle

2020 3/9 コメント修正 2020 3/9 誤字修正 2020 3/24 実行例の間違い修正 2020 3/27 コマンド修正 2020 9/5 コマンドが変更されているため手順を修正 2020 9/12 論文追記 2020 10/1 論文リンク追加 2020 10/9 コマンド修正 2022 1/5 誤字修正 オルガネラには…

ロングリードやショートリードのRNA seq情報をもとに転写領域をアセンブリして出力する StringTie2

2020 7/1 インストール方法追記, コマンド追記 2020 7/2 タイトル修正 2020 7/27 merge追記 2022/06/09 論文引用 2022/12/10, 12/28追記 2023/01/21 レポジトリURL修正 RNAシーケンス(RNAシーケンス)データセット内の転写産物の量を測定することは、細胞の…

GATKのgenotyping結果を反映したゲノム配列を出力する VCF2Genome

このメソッドはEAGERの機能の1つで、VCFファイルのバリアントを組み込んだFastAファイルを生成するために使用できる。 バクテリアのデータに特に有用である。この機能により、ユーザーは、ジェノタイピングの最低品質、カバレッジ、およびSNP対立遺伝子頻度…

Ensemblの Variant Effect Predictor (VEP)

2019 11/10 タイトル修正 2020 10/14 dockerリンク追加 ゲノムまたはエクソームシーケンシングから生じるバリアントデータの分析は、クリニックでの基礎研究からトランスレーショナルゲノミクスまで、生物学の進歩の基本である。機能を調査し、標準化された…

ロングリードを使ってリファレンスベースのアセンブリとpolishを行う Rebaler

優先順位の高いジョブがたまっているため、お盆明けくらいまで不定期更新にします。よろしくお願いいたします。 Rebalerはロングリード使用してリファレンスベースのアセンブリを実行するためのプログラムである。細菌ゲノム用に作られている。 Method (Git…

de novo transcriptomeのアセンブリツール TransLiG

オルタナティブスプライシングは真核生物遺伝子における遺伝子調節の重要な形態であり、遺伝子機能の多様性ならびに疾患のリスクを増大させる[ref.1、2、3]。報告されているように[ref.4]、[ref.5]、ヒト遺伝子を含む真核生物遺伝子のほとんどはオルタ…

スプライシングジャンクションを上手く処理できるエラーの多いロングリードRNA seqのアライナーdeSALT

2019 12/17 論文追記 RNAシークエンシングはトランスクリプトームを特徴付けるための基本的なアプローチとなっている。正確な遺伝子構造を明らかにし、遺伝子/転写産物の発現を定量できる[ref.1-5]、さらにバリアントコーリング[ref.6]、RNA edit/ng解析[ref…

editorial要約 Improving the usability and archival stability of bioinformatics software

2019 3/2 文章修正 ゲノミクスおよびシーケンシング技術の急速な進歩は、圧倒的な量と多様性の新しいソフトウェアツールとしてパッケージされた分析アルゴリズムをもたらした[ref.1]。 このような計算ツールは、ライフサイエンスや医学研究者がますます複雑…

メタゲノムのアセンブリcontig.fastaに精度の高い系統情報をアサインするCATと、binned.fastaに精度の高い系統情報をアサインするBAT

2019 2/15 タイトル修正、2/26 コマンドの誤り修正、7/7 インストール説明修正、10/25 論文引用追記、10/29 wgetしてくるデータベースのリンク更新 2020 1/8 コマンドの例修正、2/5 インストールの流れ修正、091/3 wgetしてくるデータベースのリンク更新 202…

ラージゲノムにも対応した高速に動作するリファレンスガイドアセンブリツール RaGOO

2019 2/12スライド追加 2019 10/29 インストール方法修正、論文引用とtwitter追記 2019 10/30 コマンド微修正 2019 11/5 コマンド記載ミス修正 2019 3/24 コマンド記載ミス修正 Oxford Nanopore TechnologiesとPacific Biosciencesによって商品化されたロン…

rRNAを再構成するEMIRGE

2020 6/11 インストール手順追記 2020 6/16 emirge_makedb.py help追加 微生物群集構成の特徴付けは、系統発生マーカー遺伝子、最も一般的にはリボソームスモールサブユニットRNA(SSU rRNA)遺伝子[ref.1]を用いて行われることが最も多い。伝統的に、rRNA配…