macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2020

VCFのSVコールをロングリードでジェノタイピングする SVJedi

構造変異(SV)の研究は急速に拡大している。その結果、第三世代シークエンシング技術のおかげで、特にヒトゲノムにおいて発見されたSVの数が増加している。同時に、臨床診断のようないくつかのアプリケーションでは、新たにシーケンシングされた個体を、よ…

ロングリードのマルチプルシーケンスアラインメントを行う abPOA (POAのSIMD実装拡張)

マルチプルシーケンスアラインメント(MSA)問題を解決するために、Leeら(2002)によって最初に導入されたのがPartial order alignment(POA)である。POAでは、MSAをdirected acyclic graph(DAG)(有向無閉路グラフ)として表現し、動的計画法(wiki)(…

メタゲノムデータからウィルスゲノムをアセンブルする metaviralSPAdes

2020 5/25 タイトル修正 現在知られているウイルスのセットは着実に拡大しているが、これまでのところ、地球上のウイルスのごく一部しかシークエンシングされていない。ショットガンメタゲノムシークエンシングは、新しいウイルスを明らかにする機会を提供す…

ゲノムのリアレンジメントを検出して視覚化する smashpp

2020 5/22 追記 ゲノムのリアレンジメントの研究は、染色体の進化や遺伝的疾患、ガンなどの研究に重要な役割を果たしており、その研究は非常に重要である。本研究では、2つのDNA配列間の小規模・大規模なゲノムリアレンジメントを検出し、可視化するためのア…

ゲノムの中の関心がある遺伝子を視覚化する Gcluster

2020 5/27 コメント追加 2020 5/28 -mオプション追記 遺伝子、遺伝子クラスター、およびその近傍のゲノムコンテクストを比較することは、遺伝子の機能や微生物の進化の基盤を決定する上で非常に重要である。現在のところ、多数のゲノムのゲノムコンテクスト…

効率的なVCFの圧縮器と関連ツールを提供する genozip

大規模なゲノムプロジェクトはますます一般的になりつつあり、その結果、数千もの個々のゲノムデータセットからなるVCF(Variant Call Format; (Danecek et al., 2011))ファイルが作成される。圧縮された形式であっても、このようなファイルは非常に大きく(…

アセンブリグラフからメタゲノムのビニングを行う GraphBin

メタゲノミクスの分野では、微生物群集の構造、多様性、生態についての貴重な知見が得られている。メタゲノム解析の重要なステップの1つは、長いコンティグにリードをアセンブリし、メタゲノムサンプル中に存在する異なる種に属するコンティグのグループにビ…

Snipe

食中毒は、開発途上国と開発途上国の両方において、世界の食品の安全性と公衆衛生を脅かす顕著な脅威となっている。毎年、病原体に汚染された食品は、米国で約4,800万人の人に病気を引き起こし、12万8,000人が入院し、3,000人が死亡している(www. producedaf…

illumina、BGIのシーケンシングリードの前処理を行う Ktrim

次世代シーケンシング(NGS)データは、品質の悪いサイクルやアダプター汚染に悩まされることが多いため、下流での解析の前に前処理を行う必要がある。最新のシーケンサーのスループットとリードの長さはますます増大しており、前処理のステップは、現在のツ…

ショートリードアセンブリからplasmid配列を同定する Platon

プラスミドはchromosomeから独立して複製する染色体外遺伝要素であり、細菌の環境適応において重要な役割を果たしている。プラスミドは、潜在的な移動性または接合能力により、抗菌薬耐性遺伝子や病原性因子の重要な遺伝的乗り物であり、臨床的にも大きな意…

ゲノムのマッピング可能性を調べる GenMap

ゲノムの各位置のk-merの一意性(uniqueness)を計算することは、最大e個のミスマッチを許容しながら計算することが困難である。しかし、CRISPR実験のためのガイドRNAの設計など、多くの生物学的応用には不可欠である。より正式には、一意性または(k, e)マッ…

 シーケンスロゴを作成するpython API Logomaker

シーケンスロゴは、DNA、RNA、タンパク質の配列の生物学的特性を視覚的に説得力のある方法で説明するが、Pythonプログラミング環境内でそのようなロゴを生成してカスタマイズすることは現在のところ困難である。ここでは、公開品質のシーケンスロゴを作成す…

メタゲノムアセンブリのウイルスゲノム品質を評価する CheckV

2020 5/9 誤字修正 ここ数年の間に、メタゲノミクスにより何百万もの新しいウイルス配列のアセンブルが可能になり、地球上のウイルスの多様性に関する知識が大幅に拡大した。しかし、これらの配列は小さな断片から完全なゲノムまで様々であり、その品質を推…

( メタゲノム)ONTのロングリードをアセンブリしてコンプリートMAGsを生成する lathe

2020 4/29 実行手順修正 細菌および古細菌での完全なメタゲノムアセンブリゲノム(MAG)の新規生成は、マイクロバイオーム研究における長年の目標である。既存のメタゲノムシーケンスおよびアセンブリ法では通常、完成した細菌ゲノムシーケンスが得られない…

(ヒトゲノム)インタラクティブな遺伝子の変異プロットを出力する G3viz

ロリポップダイアグラム は、ガンゲノミクスにおける遺伝子変異のトランスレーショナル効果を可視化し、探索するために広く用いられているグラフィカルな表現の一つである。しかし、使いやすい機能を備えたロリポップダイアグラムツールはまだ不足している。…

全工程が自動化された高速なRNA seq解析webサービス RaNA-Seq(60以上のモデル生物に対応)

2020 4/10 タイトル修正、説明と図追加 RaNA-Seqは、RNA-Seqデータを迅速に解析・可視化するためのクラウドプラットフォームである。FASTQファイルの定量、品質管理指標の計算、発現変動遺伝子の解析の実行、機能解析による結果の説明を可能にすることで、数…

パンゲノムグラフから微生物の多様性を調べる PPanGGOLiN

2020 4/10 引用追加、タイトル修正 機能研究、進化研究、疫学研究のために比較ゲノムを使用するには、与えられた種での発現の観点から遺伝子ファミリーを分類する方法が必要である。これらの方法は、通常、分割や最適なクラス数を推論するための多変量統計モ…

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 4/1 タイトル修正、誤字修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Metagenomics Rapid Annotation through Subsystems Technology(MG-RAST)サーバー、iMi…

パンゲノムにおいて有意な関連性の遺伝子を検出する Coinfinder

原核生物および真核生物のパンゲノムのアクセサリー遺伝子は、遺伝子水平伝播、loss of gene、および選択の影響により蓄積する。 Coinfinderは、パンゲノム内の相同な遺伝子(遺伝子ファミリー)のセットが偶然に予想されるよりも頻繁に相互に関連または解離…

データベースのゲノム情報とAMR耐性/感受性情報から細菌のAMR表現型を予測する VAMPr

2020 3/37 タイトル修正 Antimicrobial resistance(AMR)は、公衆衛生に対する脅威の増加である。 AMRを決定する現在の方法は、非効率的な表現型アプローチに依存しており、多くの病原体と抗菌薬の組み合わせのAMRメカニズムの理解が不完全なままとなってい…

公開されている真核生物アセンブリを分析する BlobToolKit

2020 6/15 追記 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入し…

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 2020 5/12 インストール追記 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオ…

WGSのリードから倍数体ゲノムのゲノムサイズやヘテロ接合度を推定する GenomeScope 2.0

2020 3/21 コマンドの修正と結果追記、タイトル修正、誤字修正 2020 3/23 誤字修正 ゲノムシーケンシングは、現代の分子生物学の不可欠な部分となっている。ただし、利用可能な分析方法の大半は、染色体レベルのリファレンスゲノムと詳細なアノテーションが…

臨床環境の病原性バクテリアを素早くジェノタイピングする biohansel

BioHanselは、全ゲノムシーケンス(WGS)データで系統学的に有益な1塩基多型(SNP)(canonical SNPsとも呼ばれる)を識別することにより、細菌分離株の高解像度のジェノタイピングを実行する。このアプリケーションは、高速k-merマッチングアルゴリズムを…

タンデムリピートなどのミスアセンブリを分析する TandemQUAST

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトで、タンデムリピートが真核生物のゲノムに豊富にあることが明らかになった…

計算リソースを効率的に使って多数のよく似たバクテリアゲノムを素早く分析する自動化されたパイプライン Bactopia

2020 3/17 パラメータ追記、コマンド修正、タイトル修正 2020 3/18 追記 2020 5/11 説明追加 2020 8/13 論文追記 イルミナのテクノロジーを使用した細菌ゲノムのシーケンシングは、多くの場合、扱いやすい分析手法よりも速くデータが生成される手順になって…

スモールゲノムからラージゲノムまで対応した高速かつ精度の高いハイブリッドアセンブラ HASLR

オックスフォード・ナノポア・テクノロジーズやパシフィック・バイオサイエンスなどのプラットフォームからの第三世代シーケンシング技術は、より連続したアセンブリを構築し、ゲノムを完全に再構築する道を開いた。これらのテクノロジーで生成されより長い…

時系列データなどの連続データを視覚化するwebサービス PlotTwist

2020 3/13 誤字修正、補足説明追加 要約だけでなく、個々の測定からの実際のデータを表示することで、実験結果の理解が深まり、より完全な全体像が得られることは長年にわたって強調されてきた[ref.1-3]。これは、ダイナミクスを研究するための時間依存デー…

パンゲノム解析のためbacteria populationsをシミュレートする SimPan

細菌ゲノムは、広範な相同組換え、水平遺伝子導入、遺伝子損失、遺伝子重複などの複雑な進化の歴史によって形作られている。細菌ゲノムの定義されたセット内のすべての遺伝子で構成されるパンゲノムは、系統学的推論および集団研究の基礎を提供できる。ここ…

(ヒトゲノム)個人のサンプルが汚染または交換されている可能性があるかどうかを調べる verifybamid

DNAサンプル汚染の検出と推定は、高品質の遺伝子型コールと信頼性の高いダウンストリーム分析を確保するための重要なステップである。既存の方法は、汚染率の正確な推定のために母集団対立遺伝子頻度情報に依存している。シーケンス解析の初期段階で各個体の…