macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Preprint

倍数性レベルを可視化して推測する smudgeplot

性別:それは何の利点があるか?直接的な選択肢が利用可能であるとき、ほとんどの真核生物が繁殖に複雑な迂回路をとる理由は、進化生物学の中心的かつ主として未解決の問題であり続けている。無性生殖を唯一の複製形態として使用する種は系統発生の先端で起…

リファレンスなしでnanopore Direct RNA seqのリードの向きを予測する ReorientExpress

ロングリードシークエンシング技術は、あらゆる種からのトランスクリプトームの体系的な調査を可能にする。ただし、機能評価には5 'から3'への方向を正しく決定する必要がある。 complementary DNA(cDNA)ライブラリーのシーケンシングは、一般に多数のリー…

ラージゲノムにもスケールするドラフトゲノム配列polishingツール ntEdit

この10年間で、次世代シーケンシングテクノロジはスループットを大幅に向上させた。例えば、今日では、20 Gbpの針葉樹ゲノムの50倍のカバレッジシーケンシングもIllumina HiSeq-Xマシンなら8レーンフローセル1回で達成できる。しかし、この膨大なデータはバ…

オルソログとパラログを小メモリ使用量で高速探索する SwiftOrtho

Gene homology type classification は、種を越えてパラログおよびオルソログを同定することからなる。オルソログは共通の先祖遺伝子から分化後に進化した遺伝子であり、パラログはduplicationのために相同な遺伝子である。遺伝子の進化の歴史は遺伝子機能と…

ロングリードのde novo transcriptomeのクラスタリングツール isONclust

Pacific Biosciences(PacBio)Iso-SeqおよびOxford Nanopore Technologies(ONT)を用いた転写産物のロングリードシークエンシングは、植物[ref.6]、真菌[ref.7]、ウイルス[ref.8]、ヒトなどの複雑なアイソフォームランドスケープの研究の中心となることが…

効率的なロングリードとロングリードのアライナー/オーバーラッパー BELLA

最近のシークエンシング技術の進歩により、これまで以上に大規模なゲノムデータにアクセスしやすくなり、ゲノム構造およびその種間および種内での多様性の特性評価が可能になった。シーケンシング後のデータの分析は困難な作業である。ハイスループットシー…

SVtools

近年の全ゲノムシークエンシング(WGS)の劇的なコスト削減により、数万から数十万のディープシーケンシングされた(> 20倍)個体の包括的な形質関連の解析を行うことを目的とする大規模なヒト遺伝学研究が進行中である。その中で最も重要なものは、NHGRI’s …

DuplicationとdeletionのSVコールから偽陽性の可能性が高いコールをフィルタリングする duphold

構造変異(SV)は、重複、欠失、逆位、挿入、および転座を含む広範な種類の変異である。 SVは、一塩基変異および挿入欠失変異よりも高精度で検出することがより困難であることが知られている。そのため、偽陽性率が高くなる可能性があることからノイズと関心…

SRAのメタデータを取得したり、IDを変換するツールキット pysradb

いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世代のシークエンシングデー…

ロングリードのself error correctionやcontigのポリッシングを行う CONSENT

2019 4/16 マッピングの画像追加 第3世代のシークエンシング技術Pacific BiosciencesとOxford Nanoporeは、2011年の創業以来広く使用されてきた。 このロングリードは、コンティグおよびハプロタイプアセンブリ(Patterson et al、2015; Kamath et al、2017…

ロングリード情報からハプロタイプフェージングしてdiploidの正確なバリアントコールを行う Longshot

イルミナのショートリードのような第二世代のDNAシークエンシング技術は、ヒトゲノムのリシークエンシングを日常的なものにした(ref.1)。ヒトゲノムにおける最も豊富な変異タイプであるSNVとsmall indel変異の両方は、30〜40×の全ゲノムイルミナシークエン…

高速なロングリードのアセンブリツール wtdbg2

2019 4/15 Githubリンクの誤り修正 デノボシーケンスアセンブリは、比較的短いシーケンシングリードからサンプルゲノムを再構築する。リファレンスゲノムは関心のある領域を欠いている可能性があるため、マッピングベースの分析に失敗することが多い、新種お…

サンプルのコンタミネーションを見積もる Mash Screen

シーケンシング技術がスループットを高めそしてコストを下げ続けるにつれて、シーケンシングされたゲノムのデータベース(例えばNCBI RefSeq [ref.1])は指数関数的成長を続け、それらに対する検索をさらに複雑にしている[ref.2、3]。さらに、rawシーケンス…

ゲノムを比較してstructural rearrangementsを検出する SyRI

同じ種の半数体ゲノムは、典型的にはそれらのゲノム構造において高い類似性を示す広範囲のco-linear(シンテニー)領域を含む。しかし、これらのシンテニー領域は異なるハプロタイプにおける異なる方向および/または位置によって特徴付けられるstructural r…

効率的にペアエンドfastqを同期する Fastq-pair

2019 2/26 テストラン追加 Fastqフォーマットのファイルは、シーケンスと品質の両方の情報を1つのファイルにまとめて含むため、DNAシーケンスを共有するための主要なファイルフォーマットとなっている(ref.1)。さらに、オーバーラップするペアを結合するこ…

複数ゲノムのマルチプルアライメントとシンテニーブロック検出を行う SibeliaZ

マルティプルゲノムアラインメントは、集められたゲノム配列の集まり内の全ての高品質のmultiple local alignmentsを同定する問題である。それはバイオインフォマティクスにおける根本的な問題であり、リアレンジメント分析、系統発生再構築、および進化過程…

HyperLogLogを使って超高速にゲノム距離を計算する Dashing

2019 2/17 テスト環境の誤り修正 Mashツール[ref.1]のリリース以来、MinHashのようなデータスケッチは比較ゲノミクスにおいて有益になっている。それらは大規模データベースからのゲノムのクラスター化[ref.1]、特定のシーケンス内容を持つデータセットの検…

メタゲノムのアセンブリcontig.fastaに精度の高い系統情報をアサインするCATと、binned.fastaに精度の高い系統情報をアサインするBAT

2019 2/15 タイトル修正 2019 2/26 コマンドの誤り修正 メタゲノミクスは、自然環境における微生物群集からのDNAのダイレクトシーケンシングであり、生物圏の膨大な微生物配列を発見することによって微生物学の分野に革命をもたらした。 DNAシーケンシングの…

rRNAを使ってバクテリアのゲノム構造を調べる Socru

バクテリアゲノムは構造的リアレンジメントを受けることができるダイナミックな実体(entities)である。これらのリアレンジメントは、リボソームrRNAオペロンおよびファージを含むリピート配列周辺で相同組換えを介して起こる傾向がある(Brüssow, et al., …

メタゲノムデータからrRNAをターゲットアセンブリし、系統アサイン、定量、比較する phyloFlash

ショットガンメタゲノミクスは、微生物群集の機能を調査し、それらの系統または分類学的な構成を決定するための強力なツールである(Preprintより ref.1、2)。プライマーバイアス(ref.3)やキメラ配列(ref.4、5)など、PCRベースのアンプリコンメソッドに…

ラージゲノムにも対応した高速に動作するリファレンスガイドアセンブリツール RaGOO

2019 2/12スライド追加 Oxford Nanopore TechnologiesとPacific Biosciencesによって商品化されたロングリードの一分子シーケンシング技術は、高品質の新規真核生物ゲノムアセンブリを促進している[ref.1]。さまざまな動植物種でこれらの技術を使用している…

taxonomy ID、学名、系統情報など相互変換できるツール taxonkit

2019 1/24 リネージュコマンドのミス修正 NCBI taxonomy databaseは、公共のシーケンスデータベースに含まれるすべての生物の分類(以後taxonomy)および命名法をまとめたものである(NCBI、2018)。taxonomyデータベースの一般的な操作には、分類名からのta…

ロングリードのシミュレーションやロングリードのエラーコレクションツールの評価を行う ELECTOR

Pacific Biosciences(PB)とOxford Nanopore Technologies(ONT)のロングリードは、高いエラーレートと複雑なエラープロファイルにもかかわらず、さまざまなアプリケーションに急速に採用されてきている[論文 ref.1]。これらのリードは、エラー率が高く(…

bamからのリードの抽出とリアライメントを素早く実行する Bazam

過去10年間にわたるハイスループットゲノムシーケンシングマシンの大規模な採用は、巨大な可能性を有する膨大な量のゲノムデータを生み出してきた。ゲノムデータは、座標 (coordinate) ソートされたBAMまたはCRAMフォーマットでアライメントされたリードとし…

ONTのロングリードを自動でアセンブリして公開し、比較できるツール poreTally

ナノポアシークエンシングは、エラーが発生しやすいクオリティが一貫したロングリードを生成する第3世代のシークエンシング方法である。簡単に言うと、DNAまたはRNA鎖がタンパク質の細孔を通って引っ張られ、細孔を介して電気抵抗に影響を与えこれが記録され…

PCR duplicationにタグをつけたりエラーを取り除く gencore

2018/12/22 タイトル修正 HIgh depthの次世代シークエンス(NGS)は、癌の精密な診断と治療に広く使用されている。このようなディープシーケンシングデータから、体細胞突然変異を検出して、パーソラナイズされた標的療法または免疫療法のガイドにすることが…

リードや他のアセンブリから得られた情報を組み込んでゲノムアセンブリ精度を向上させる NucMerge

過去10年にわたるシーケンシング技術の大きな進歩にもかかわらず、第2世代シーケンシングリードを用いたゲノムアセンブリは依然として複雑な問題のままである。これは主に、ゲノムの構造の繰り返しと、大量のデータ、短いリード長及びフラグメント長、不均一…

ロングリードのアセンブリツール Flye

2019 3/16 version2.4.1のヘルプに更新 2019 4/2 論文追記 2019 4/10 テストランのコマンドミス修正 ゲノムアセンブリの問題は、最終的には、リピートキャラクタライゼーション問題、すなわちリピートグラフとしてのゲノム中のすべてのリピートファミリーを…

アセンブリの構造的誤りが疑われる部位をコールする NucBreak

ゲノムシーケンシング技術全体の進歩により、近年ゲノム配列が決定された生物数が大幅に増加している。これは、広範な生物の比較ゲノム解析を行う機会を提供している。分析結果は、使用されたゲノムアセンブリの品質に大きく依存する。アセンブリ内のエラー…

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

2018 12/3 図差し替え RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC)とシーケンスデータのフィルタリングが重要になる。ワークフローは通常、次のように進行する。最初にシーケンスクオリティチェックを行い、続いてア…