macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Preprint

トランスポゾンを分類する TEsorter

Transposable elements(TE)は真核生物ゲノムの重要な部分を構成するが、それらの分類、特にクレードレベルでの分類は依然として困難である。 この目的のために、TEの保存されたタンパク質ドメインに基づいたTEsorterを提案する。 TEsorterはTE、特にLTRレ…

URMAP

2020 1/19 コマンドの誤り修正 2020 1/20 twitter追記 次世代シーケンシングにより、ヒト機能ゲノミクス(Morozova and Marra、2008)から微生物メタゲノミクス(Gilbert and Dupont、2011)までの分野で劇的な進歩が可能になった。 次世代研究のデータ分析…

変異のlandscape visualizationを提供するwebサービス LandScape

シーケンシング技術の莫大な発展はゲノムデータの蓄積を加速させ、指数関数的蓄積を引き起こし、ヒトゲノム研究を著しく加速させた。一方、生物学的研究では、増加するサンプルからのトランスオミクスデータを分析している。多くの適切に設計された視覚化は…

エラーの多いロングリードをタンデムリピートにマッピングする tandemmapper

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトから、タンデムリピートが真核生物ゲノムに豊富にあることが明らかになった…

ラージゲノムにもスケールする高速且つ精度の高いドラフトゲノムポリッシャー hypo

DNAシーケンサーによって生成されたフラグメント(リード)からゲノムを再構築するゲノムアセンブリと、種間または種内の遺伝的変異を調べるためのその解析は、ゲノミクスの中心である。 Pacific Biosciences(PacBio)やOxford Nanopore Technologies(ONT…

Whisper 2

第3世代のシーケンシングの開発にもかかわらず、高いスループットと低いエラーレートのショートリードプラットフォームは多くの生物学的分析に不可欠なままである。 これらは、とりわけ、スモール(Kim et al、2018)および構造(Cameron et al。、2019)変…

メタゲノムのデータセットからコアオペロンを探索する POEM

オペロンはDNAの機能単位であり、その遺伝子はポリシストロン性mRNAとして共転写される。オペロンは、細菌に機能的複雑さをもたらす強力なメカニズムであり、したがって微生物の遺伝学、生理学、生化学、および進化から関心がある。全ゲノム中のオペロンを同…

バクテリアゲノムをリファレンスフリーで素早く分析する SKA

細菌性病原体のゲノムシーケンスは、疫学者の防具の重要なツールになりつつある。パルスフィールドゲル電気泳動やMLSTなどの従来の分子タイピングアプローチよりも特異性と感度が向上し、遺伝子型の抗微生物薬耐性予測などの疫学関連データも提供される。た…

(ヒトゲノム向け)ニューラルネットワークを使用したロングリードのSVコーラー NanoVar

構造変異は、多くのヒト疾患の発症に関与しており、ヒト集団の遺伝的変異の大部分を占めている(ref.3,4)。 50 b5を超えるゲノム変化として定義される構造変異(SV)は、遺伝子調節異常または新規遺伝子融合を引き起こす可能性のある遺伝子病変を形成するこ…

ゲノムを分類、クラスタリングし、視覚化する JGI-GenomeConstellation

2019 11/3 タイトル修正 これまでに特定されていない分類群を含む分類群の分類は、南極の乾燥した谷にある永久に氷に覆われた湖を含む、記載されていない生息地の微生物群集を特徴付ける重要なタスクである。現在の監視された系統発生ベースの方法は、そのよ…

包括的なメタゲノム解析パイプライン ATLAS

2019 10/26関連ツール追加 2019 10/26 インストール手順修正 2019 10/29 同上 2019 10/29 コメント追加 メタゲノミクスおよびメタトランスクリプトミクス研究は、多様な環境からの微生物集団の組成および機能に関する貴重な洞察を提供するが、培養株の遺伝子…

プラスミド配列を予測する PlasClass

高スループットシーケンスを使用して細菌宿主内のプラスミドの存在とダイナミクスを研究する場合、多くの場合、シーケンスをプラスミドまたは細菌起源のものとして分類する必要がある。これは、メタゲノムシーケンスの場合に特に当てはまる。メタゲノムシー…

(植物など)ゲノムアセンブリとアノテーションのクオリティを分析するwebサーバー GenomeQC

過去数十年にわたって、Genlisea aureaの63 Mb [ref.1]からPinus taedaの22 Gb [ref.2]までのサイズの多数の植物ゲノムアセンブリが生成された。このようなプロジェクトから生成されたゲノムリソースは、改良された作物品種の開発に貢献し、ゲノムサイズ、構…

メタゲノムのtaxonomic assignmentと定量を行う CCMetagen

環境試料および宿主関連試料(メタゲノミクスおよびメタトランスクリプトミクス)のDNAおよびRNAのハイスループットシークエンシングは、どの生物が試料中に存在するかを評価するための強力なツールである。Taxonomy同定ソフトウェアは通常、個々のショート…

コア遺伝子有無など視覚化できるスケーラブルな原核生物間のゲノム比較ツール Chromatiblock

完全な原核生物ゲノム間の構造的変化を視覚化することは、系統の違いの遺伝的基盤を特定するために重要である。これは通常、連続したペアワイズ比較または複数の線形の結果を線形レイアウトまたは環状レイアウトで表示することで実現される。シリアルペアワ…

マッピングとバリアントコールを両方行う MapCaller

次世代シーケンシング(NGS)技術の進歩により、近い将来に精密医療のさまざまなアプリケーションをサポートできるようになってきている(Ku and Roukos、2013)。ますます多くの医学的および生物学的研究でNGS技術を採用してパーソナル間の遺伝的変異を特徴…

BWTによる高速なゲノム間アラインメントを行う GSAlign

パーソナルゲノミクスと比較ゲノミクスは、臨床診療とゲノム研究においてますます重要になっている2つの分野である。両方のフィールドは、配列の保存と構造の変化を発見するためにシーケンスアラインメントが必要である。ゲノム配列のアラインメントを処理す…

rRNAのアンプリコンシーケンスのトリミングを行う FIGARO

マイクロバイオーム研究は、巨視的世界にとっての微生物コミュニティの重要性についての途方もない洞察を提供し続けている。ハイスループットDNAシーケンシング技術(すなわち、次世代シーケンス)は、微生物分類群を同定し、生物学的および環境試料の多様性…

ロングリードRNA seqのアライナー Graphmap2

オックスフォードナノポアテクノロジー(ONT)[ref.1]やパシフィックバイオサイエンス(PacBio)[ref.2]などの企業が達成したシーケンシングテクノロジーの進歩により、長さが10 kbpを超えるロングリードが生成される。当初、このようなロングリードのエラー…

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコストおよび生産時間のボトルネックを有している。著者らは11のヒトゲノム用に最適化されたPromethIONナノポアシーケンス…

複数のシーケンシング技術に対応したドラフトアセンブリpolishingツール Apollo

第三世代のシークエンシング技術は900Kもの塩基対(bp)を含むロングリードをシークエンシングすることができる。これらの長いリードは、アセンブリ(すなわち対象のゲノム)を構築するために使用される。残念なことに、第3世代のシーケンシング技術は高いシ…

viral quasispeciesのクラスタリング(binning)ツール VirBin

ウイルス集団内の高い遺伝的多様性が、HIV、HCVなどのRNAウイルスによる慢性感染症の患者において観察されている(Sullivan et al、2007; PerrinおよびTelenti、1998)。遺伝的多様性は、異なる株の多重感染、または宿主内でのウイルス複製中の変異によって…

ニューラルネットワークを使ってONTのロングリードの低クオリティ領域を除く MiniScrub

Pacific Biosciences [ref.1]やOxford Nanopore [ref.2]のような企業のシーケンシング技術がゲノムアセンブリ[ref.1]、[ref.10]、抗菌剤耐性遺伝子[ref.18]、個人用トランスクリプトームシーケンシング[ref.19]、およびドラフトゲノム[ref.20]の改善に寄与し…

マッピングベースでゲノムサイズを推定する MGSE

現在では植物のほぼすべての部分を測定することが可能になってきているがが、植物ゲノムのサイズを評価することは依然として困難である。染色体サイズは顕微鏡下で測定することができるが[ref.1]、単一細胞内の全DNA分子の合計の長さはまだ不明である。シロ…

ヒトとマウスの様々なアライナー用indexをダウンロードできる Refgenie

2019 8/15 リンク追記 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラインメントとアノテーションを行う広範囲の下流ツ…

bamファイルを使ってDNA/RNAシーケンスのピーク定量やbigwigのcoverage trackを作成する BAMscale

2020 1/14 conda追記 BAMscaleは、chromatin binding(ChIP-seq)およびクロマチン状態変化(ATAC-seq、END-seq)やchromatin state changes(ATAC-seq, END-seq)、RNA seqのシーケンシングデータセットを処理するワンステップツールである 。 出力には、テ…

アセンブリ過程でロングリードをフィルタリングする fpa

以前、ロングリードのアセンブリ前処理ツール yacrdを紹介した。 今回はアセンブリ過程でフィルタリングして出力を調節するfpaを紹介する。 以下のフィルタリングが行える (Githubより)。 internal match containment dovetails self matching read name mat…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボアセンブリ)のための重要な技術となりつつある。この種のデータに対する新しいバイオインフォマティクス手法が急速に登場し…

メタバーコディングのデータベース配列キュレーションなどを行うツールキット MetaCurator

配列ベースの生物学的コミュニティの特徴付けの過程において、配列の教師ありのtaxonomic classification は重要な目標である。多数の配列分類ソフトウェアプログラムは、配列類似性を測り、そして配列類似性と分類学的所属との間の関係をモデル化することに…

様々なデータベースを使ってヒトミトコンドリア変異のアノテーションを行う hmtnote

2019 6/11 データベース追記 HmtNoteは、VCFファイルからヒトのミトコンドリアのバリアントにアノテーションを付けるためのPythonパッケージである。バリアントは、基本、相互参照、変動性、予測のサブセットにグループ化された幅広い情報を使用してアノテー…