macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018-03-01から1ヶ月間の記事一覧

   RNAシーケンスデータを使いアセンブルを改善する Rascaf

近年、配列決定されたゲノムの数と多様性が非常に増加している(論文より Reddy et al、2015)。 13,000以上の真核生物が配列決定されているか、配列決定の過程にあり、数百の植物や動物を含むより多くのものが計画されている。大部分のモデル生物は、高品質…

   ペアエンドRNAシーケンスを使いアセンブルを改善する P_RNA_scaffolder

2020 7/12 追記 ゲノムシークエンシングプロジェクトでは、遺伝子の同定は機能的研究と比較分析の基本である。メイトペアライブラリーおよびロングリードは高品質のアセンブリの生成を容易にするが、すべての遺伝子の完全な構造を回復することは困難であり、…

   アンプリコンシーケンスのエラー率を見積もり変異を検出する NGS-eval

微生物遺伝マーカー(MGMs)は、系統分類およびtaxonomy分析で広く使用されている遺伝子または他のDNA配列である。そのような分析に適したMGMsの特性は、比較的保存された配列組成(論文より ref.2)と同様に、種を越えたそれらの普遍的な存在である。真核生…

メタゲノムから特定の種のリードを得る MetaObtainer

微生物ゲノム研究は通常、実験的限界のために1つの細菌株に焦点を当てる。この種の方法は、少なくとも2つの欠点を有する:(1)微生物の99%以上が未知であり、栽培または単離することができない。 (2)生息地の微生物が互いとその宿主に対して様々な機能的…

   真核生物ゲノムにも対応したReference-assisted assemblyツール MEDUSA

ショートリードシーケンシングデータのデノボアセンブリでは、通常、断片化された配列セット(コンティグ)が生じる。このようなコンティグの順序および方向の決定は、ゲノムのFinishingに向けた最初の些細ではないステップを表しており、手動編集を必要とす…

ロングリード単独またはNGSとの併用でコンセンサス配列を得る Sparc

以前の世代と比較して、第3世代シークエンシング(以後 3GS)は5〜120 kbのリードを得ることができる。しかし、現時点で報告されているエラー率はPacBioシークエンシング(論文より Koren et al、2012)で約15%、オックスフォードナノポア配列決定(Laver e…

似たゲノムと比較してアセンブリのFinishingをサポートするwebツール CONTIGuator2

NGS解析技術の発展により特にバクテリアのゲノム解析が容易になり、関連するゲノムの数も劇的に増加した。しかしゲノムのアセンブリは簡単に自動化することはできない。 事実、ドラフトのギャップを埋めるために、一連のPCRを設計しなければならない。 この…

高速な重複の検出ツール DuplicationDetector

重複は、植物ゲノム構造の重要な特徴であり、単一の遺伝子、染色体の一部や全体、さらには全ゲノムを含む可能性がある [論文より ref.1]。被子植物は、それらの進化に沿って大規模な重複および複数の全ゲノム重複を受けたことが示されている[ref.2]。重複遺…

(ラージゲノム)高速なハイブリッドアセンブラ DBG2OLC

2020 3/15、2021 6/11タイトル修正 第3世代シークエンシング技術は、アセンブリの品質を大幅に向上させた。 しかしながら、効率的なゲノムアセンブリアルゴリズムが欠如していることは、間違いなく第3世代シーケンス技術の普及への最大の障害となっている。…

シングルセルにも対応したシーケンスデータの削減と正規化ツール NeatFreq

Multiple displacement amplification(MDA)は、培養できない生物のシングルセルシーケンスおよびゲノムアセンブリを可能にする[ 論文より ref.1]。 MDAはまた、メタゲノムシーケンシングでの使用のために低バイオマス環境サンプルからDNAを増幅するために…

バクテリアゲノムアノテーションツール間の注釈を自動比較する BEACON

ゲノムアノテーションは、ゲノム配列中の異なるセグメントの機能を同定して示すために使用され[ 論文より ref.1 ]、多くの下流ゲノム解析の基礎となっている。 真核生物[ref. 2 ]および原核生物[ref. 3 ]のためのいくつかのアノテーション手法(AM)が開発さ…

ロングリードのハイブリッドエラーコレクションツール FMLRC

2019 7/26 condaインストール追記、流れ修正 ゲノムのデノボアセンブリは、いわゆるロングリードシークエンシング技術の導入により劇的に恩恵を受けている。 PacbioによるSMRTシーケンシングやOxford Nanopore Technologiesによるナノポアシークエンシングプ…

ロングリードのハイブリッドエラーコレクションツール HECIL

2019 3/24 コメント修正 Pacific Biosciences [論文より ref.4,5]およびOxford Nanopore [ref.6,7,8]によって導入された第3世代シークエンシング技術は、かなり長いリードを生成する。これらのロングリードには、通常、数千の塩基対が含まれており(論文より…

k-merサイズを変えながらエラー訂正を繰り返す SGA-ICE (IterativeErrorCorrection)

イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…

メタゲノムデータを使ってシングルセルのエラー訂正を行う MeCorS

自然界に存在する大部分の微生物種は培養できないが、メタゲノミクスや最近のシングルセルシーケンス技術によりゲノムにアクセスできるようになってきた。シングルセルシーケンスとメタゲノムのショットガンシーケンスが同じ環境サンプルから生成され、方法…

高カバレッジな細菌ゲノムのdenovoゲノムアセンブリツール HGA

デノボゲノムアセンブリにはgreedy strategy、string overlap graph、そしてde Bruijn graphの3つの主なアプローチがある。greedy strategyは、シードリードを選択し、最大のオーバーラップが可能になるまで貪欲に拡張していくことによって機能する。このア…

メイトペア情報を使いスキャホールドの誤りを検出する NxRepair

ゲノムのde novoアセンブリの一般的な方法は、de Bruijnグラフ(論文より Compeau、Pevzner&Tesler、2011)の構築に基づく。最も単純なケースでは、グラフはシングルエンドリードから構成されるが、シングルエンドのリードだけでは、de Bruijnグラフをもつ…

ウィルスintegration部位を分析するGUIツール ChimericSeq

ウイルスintegration部位の同定は、特定のウイルス感染に関連する疾患の病因および進行を理解する上で重要であるが、ウイルス - ホストjunction部位のNGSデータを解析するための現在の計算方法は、アクセス可能性の点で制限されている。たとえば、現在入手可…

ウィルスコミュニティを検出する viromescan

ウイルスは常にヒトの体に生息している [論文よりref.1]。細菌および真菌のように、ある種のウイルスは、ヒト免疫の調節にとって重要な低レベルの免疫応答を刺激し得るが、代謝ホメオスタシスもまた刺激し得る。これに関して、FoxmanとIwasaki [ref.4]は、一…

   シングルセルの汚染を検出する ACDC

シングルセルシーケンスの主な課題は、コンタミの可能性とその検出である[論文よりref.7]。標的ゲノムに属さない外来DNAは、複数の方法で試料に導入され得る。コンタミの原因には、全ゲノム増幅試薬が含まれる可能性すらあり得る[ref.8、9]。これらの障害を…

教師なしトリミングツール UrQt

信頼性の低いヌクレオチドがあると、後の分析において偽陰性および偽陽性の数を増加させるか、またはデノボアセンブリにおいて誤ったk-merを生成し、アセンブリを複雑にして誤ったアセンブルを引き起こす可能性がある[論文より ref.4]。信頼性の低いヌクレオ…

バクテリアをstrainレベルで検出する StrainSeeker

病原性細菌の検出には、細菌病原体を迅速に同定する必要がある。このために、通常、病原体は単離され、PCRや全ゲノム配列が行われる。分子タイピングの主な目標の1つは、病原体をクローン群に分類することである。なぜなら、同じ種の系統は宿主に対して大き…

ウィルスのintegration部位を検出する Virus-Clip

ウイルス感染は、様々なヒト悪性腫瘍の共通の危険因子である。例えばB型肝炎ウイルス(HBV)は、感染時にヒトゲノムに組み込まれ、発癌にかかりやすい遺伝子機能の破壊をもたらすことがある。過去には、PCRに基づきウィルスを検出していたが、制限が多かった…

FASTQ、BED、BAMを操作するNGSUtilsその4 gtfutils

GTF

4回目はgtfを操作するgtfutilsを紹介する。 インストール 公式ページ NGSUtils git clone git://github.com/ngsutils/ngsutils.gitcd ngsutils/make #依存がインストールされる(詳細はwebマニュアル参照)#condamamba create -n ngsutils python=2.7 -ycon…

FASTQ、BED、BAMを操作するNGSUtilsその3 fastqutils

3回目はfastqを操作するfastqutilsを紹介する。 インストール 公式ページ NGSUtils - bedutils git clone git://github.com/ngsutils/ngsutils.gitcd ngsutils/make #依存がインストールされる(詳細はwebマニュアル参照) $ fastqutils Usage: fastqutils …

FASTQ、BED、BAMを操作するNGSUtilsその2 bedutils

bed

2回目はbedを操作するbedutilsを紹介する。 インストール 公式ページ NGSUtils - bedutils git clone git://github.com/ngsutils/ngsutils.gitcd ngsutils/make #依存がインストールされる(詳細はwebマニュアル参照) $ ./bedutils Usage: bedutils COMMAN…

FASTQ、BED、BAMを操作するNGSUtilsその1 bamutils

2020 4/17 インストール追記 NGSUtilsは、FASTQ、BED、BAM形式のファイルなどを操作するためのツール。 Mac OS XおよびLinuxで動作する。コマンドが多いので3回に分けて紹介する。1回目はbamを操作するbamutils。 インストール 公式ページ NGSUtils - Tool…

PCR duplicationの割合を推定する PCRduplicates

PCRはNGSのライブラリー調製プロトコールにおける重要なステップである。 PCR前のライブラリー中のユニークなDNA鋳型分子の数が少ない場合、またはユニークなDNAフラグメントを減らすライブラリー調製過程がある場合、いくつかのフラグメントは複数回シーケ…