macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Pacbio

pacbioのbamをfastqに変換する BAM2fastx

PacificBiosciences/bam2fastx Converting and demultiplexing of PacBio BAM files into gzipped fasta and fastq files. by @PacificBiosciences - Repository | DevHub.io BAM format specification for PacBio(5.1.0) https://pacbiofileformats.readt…

ロングリードRNA seqのアライナー Graphmap2

オックスフォードナノポアテクノロジー(ONT)[ref.1]やパシフィックバイオサイエンス(PacBio)[ref.2]などの企業が達成したシーケンシングテクノロジーの進歩により、長さが10 kbpを超えるロングリードが生成される。当初、このようなロングリードのエラー…

Pacbioのロングリードのシミュレータ PaSS

PacBioやSMRT(1分子リアルタイム)シーケンスやナノポアシーケンスを含む第3世代のシーケンス技術は、これまでにないシーケンスリード長をゲノムを研究する研究者に提供し、ゲノミクス研究に革命をもたらしている[ref.1]。 Pacific BioSciencesが開発したSM…

微生物ゲノムアセンブリの品質と比較ゲノミクス(correspondence要約)

私(論文のオーサー;hereafter、私)の最近の研究では、低品質の細菌ゲノム配列(ここでは「多くのコンティグを含むゲノム配列アセンブリ、最終的には明らかなミスアセンブリと未解決のプラスミド配列」と定義)を扱ってきた。主要な問題は、ゲノムのクオリ…

メタゲノムのハイブリッドアセンブリツール OPERA-MS

2019 8/31 docker imageのhelpコマンドのエラー修正 腸内微生物叢は、ホストの健康に寄与する多様な代謝特性を付与する数百種の豊かなコミュニティを持っている(ref.1)。また、抗生物質耐性遺伝子の貯蔵庫としても機能し、数え切れないほどの細菌が絶え間…

複数のシーケンシング技術に対応したドラフトアセンブリpolishingツール Apollo

第三世代のシークエンシング技術は900Kもの塩基対(bp)を含むロングリードをシークエンシングすることができる。これらの長いリードは、アセンブリ(すなわち対象のゲノム)を構築するために使用される。残念なことに、第3世代のシーケンシング技術は高いシ…

アセンブリ過程でロングリードをフィルタリングする fpa

以前、ロングリードのアセンブリ前処理ツール yacrdを紹介した。 今回はアセンブリ過程でフィルタリングして出力を調節するfpaを紹介する。 以下のフィルタリングが行える (Githubより)。 internal match containment dovetails self matching read name mat…

アセンブリグラフからプラスミドを検出する HyAsP

プラスミドはバクテリアで一般的なextra-chromosomalのDNA分子である。プラスミドは、それらの長さ(それらはchromosomeよりはるかに短い傾向がある)、コピー数(プラスミドは細胞内に複数のコピーで存在する場合がある)およびGC含有量などの様々な特徴に…

Pacbioシーケンシングリードのオーバーラップ検出感度を改善する GroupK

リード長の増加により、第3世代のシークエンシングでゲノムアセンブリのギャップを埋め[ref.1, 2]、構造の変化を明らかにし[ef.13]、トランスクリプトームシークエンシングで遺伝子アイソフォームをより正確に定量できるようになった[ef.14]。さらに、ロング…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボアセンブリ)のための重要な技術となりつつある。この種のデータに対する新しいバイオインフォマティクス手法が急速に登場し…

ショートリードによるpolishingも行う高速なロングリードアセンブラ Ra

Raは、第3世代シーケンシングによって生成されたrawシーケンシングリードの高速で使いやすいアセンブラである。 以下の図に示すように、RaはMinimap2、Rala、およびRaconで構成されている。 Raは入力としてFASTA / FASTQフォーマット(gzipで圧縮可能)のraw…

contigやシーケンシングリードのリファレンスへのアラインメントを複数の方法で視覚化する Alvis

2019 6/10 誤字修正 2019 6/21 リンク追加 2セットの配列間のアラインメントを見つけることは、バイオインフォマティクスにおける基本的な作業である。ロングリードの解析、アセンブリ結果の評価、またはターゲットキャプチャープロトコルの評価では、リファ…

ショートリードとロングリードのhybrid-assemblyにより de novo transcriptomeアセンブリを行う IDP-denovo

新世代のシークエンシング技術がトランスクリプトームの探索において実質的な進歩をもたらすにつれて、スプライス検出および転写物再構成などの関連するバイオインフォマティクス方法が数多く開発され、様々な種で広く使用されてきた(Grabherr et al、2011;…

ロングリードのメタゲノムのアセンブリを行う metaFlye

2019 5/28 誤字修正 2019 8/20 誤字修正 (Pacific BiosciencesまたはOxford Nanoporeシーケンサーによって生成された)一分子ロングシーケンシングリードによる細菌ゲノムアセンブリは、ショートシーケンシングリードアセンブリと比較して、アセンブリされ…

メタゲノムアセンブリを評価する MetaQUAST

2019 5/27 追記 メタゲノミクスは、環境サンプルから直接採取した遺伝物質を研究する。 NGS技術は、クローニングなしに少量の生物からDNAを抽出しショートリードシーケンシングすることを可能にする。しかし、そのような実験で作成されたデータは膨大でノイ…

ロングリードを使ってscaffoldsのgap closingを行うLR_Gapcloser

次世代シークエンシング( NGS)技術は、デノボアセンブリによるゲノム配列の低コストおよび高速構築を可能にする。 NGS技術の利点と共に、この10年間で、多くのゲノムプロジェクト(例えば、10Kゲノムプロジェクト[ref.1]や100K病原体ゲノムプロジェクト[re…

Illumina、454、およびPacBioのSmith-Watermanアライメントによる高感度なアライナー InDelFixer

2019 5/30 インストール追記 InDelFixerは454、Illumina、およびPacBioデータ用の高感度なアライナーである。完全なSmith-Watermanアライメントを採用している。事前の高速k-merマッチングによって次世代シーケンス(NGS)および第3世代のリードを一連のリフ…

long readのRNA seq向けマッピング評価ツール AlignQC

Pacific Bioscience(PacBio)が20111年に1分子リアルタイム(SMRT)シーケンス技術を商品化し、第3世代シーケンシング(TGS)が登場した。TGSプラットフォームには大きな技術的違いがある。これは、第2世代シーケンス(SGS)とは異なる。ペアエンド情報を考…

スプライシングジャンクションを上手く処理できるエラーの多いロングリードRNA seqのアライナーdeSALT

RNAシークエンシングはトランスクリプトームを特徴付けるための基本的なアプローチとなっている。正確な遺伝子構造を明らかにし、遺伝子/転写産物の発現を定量できる[ref.1-5]、さらにバリアントコーリング[ref.6]、RNA edit/ng解析[ref.7 - 8]、遺伝子融合…

rawロングリードから直接MLSTタイピングを行う Krocus

2019 4/16 コマンド修正 急速にコストが下がる中、Pacific Biosciences(PacBio)やOxford Nanopore Technologies(ONT)のようなロングリードシークエンシング技術がアウトブレイク調査に使われ始めている(Faria et al、2017; Quick et al、2015)。そして…

ロングリードのde novo transcriptomeのクラスタリングツール isONclust

Pacific Biosciences(PacBio)Iso-SeqおよびOxford Nanopore Technologies(ONT)を用いた転写産物のロングリードシークエンシングは、植物[ref.6]、真菌[ref.7]、ウイルス[ref.8]、ヒトなどの複雑なアイソフォームランドスケープの研究の中心となることが…

ロングリードのリファレンスガイドアセンブリや連鎖地図のマーカーによるガイドアセンブリを行う Kermit

ハイスループットな第二世代シーケンシング技術は、大規模な新規アセンブリを可能にし、そして一般化した。しかしながら、それらのショートリード長は今日でも大きな問題を引き起こしている。1分子リアルタイムシークエンシング(SMRT)およびオックスフォ…

ロングリードのself error correctionやcontigのポリッシングを行う CONSENT

2019 4/16 マッピングの画像追加 2019 7/22 インストール、help追記、エラー修正 2019 9/8 コメント追加 第3世代のシークエンシング技術Pacific BiosciencesとOxford Nanoporeは、2011年の創業以来広く使用されてきた。 このロングリードは、コンティグおよ…

ロングリードからtamdem repeatを見つける TideHunter

TideHunterは、タンデムリピートを持つロングリードシーケンス(INC-seq、R2C2、NanoAmpli-Seq)用に設計された効率的で高感度のタンデムリピート検出およびコンセンサスコーリングツールである。Pacific Biosciences(PacBio)およびOxford Nanopore Techno…

pacbioロングリードセルフエラーコレクションを改善する FLAS

2019 7/26 タイトル修正 第3世代シーケンシーング技術は、そのはるかにリード長において第2世代よりも有利である(Eid et al、2009)。第3世代のシーケンシング技術の代表として、PacBioの一分子リアルタイム(SMRT)技術は現在、平均5〜15K bpのロングリ…

ロングリード情報からハプロタイプフェージングしてdiploidの正確なバリアントコールを行う Longshot

イルミナのショートリードのような第二世代のDNAシークエンシング技術は、ヒトゲノムのリシークエンシングを日常的なものにした(ref.1)。ヒトゲノムにおける最も豊富な変異タイプであるSNVとsmall indel変異の両方は、30〜40×の全ゲノムイルミナシークエン…

Pacbioのpolishingツール Quiver / ArrowとバリアントコーラーPlurality

Quiverは、Pacbioがテンプレートリードを前提として、最大準尤度テンプレートシーケンスを見つける、より洗練されたアルゴリズムである。 PacBioのリードは、テンプレートシーケンスを指定してリードの準尤度をスコア付けする条件付きランダムフィールドアプ…

ロングリードを使ってハプロタイプフェージングを行う HapCol

ヒトなどの二倍体生物は、それぞれの親から1つずつ、2組の染色体を含んでいる。ハプロタイプと呼ばれる、各染色体の2つの異なるコピーを再構築することは、個体のゲノムを特徴付けるために重要である。このプロセスは、フェージングまたはハプロタイピングと…

pacbioのロングリードの構造変異検出ツール pbsv

pbsvは、PacBio一分子リアルタイムシークエンシング(SMRT)リードから二倍体ゲノムの構造変異をコールして分析するための一連のツールである。 このツールは、PacBioのSMRT Link GUIのStructural Variant Calling分析ワークフローを強化する。 pbsvは挿入、…

高速なロングリードのアセンブリツール Redbean (旧wtdbg2)

2019 4/15 Githubリンクの誤り修正 2019 7/3 名前修正 デノボシーケンスアセンブリは、比較的短いシーケンシングリードからサンプルゲノムを再構築する。リファレンスゲノムは関心のある領域を欠いている可能性があるため、マッピングベースの分析に失敗する…