macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2013

microbialの遺伝子コンテキストを視覚化するwebサービス MGcV

保存された遺伝子コンテキストは、多くのタイプの比較ゲノム解析で使用される。遺伝子機能のリードを提供し、調節配列の発見を導くだけでなく、代謝ネットワークの再構築を支援するために使用さされる。 Microbial Genomic context Viewer(MGcV)は、バクテ…

VCFのアノテーションを行う Snpdat(非モデル生物にも対応)

一塩基多型(SNP)は、脊椎動物と無脊椎動物で見られる最も一般的なgenetic variantである[ref.1]。 SNPは、関連研究[ref.2]、遺伝子マッピング[ref.3]、および集団遺伝学[4]で好まれている分子マーカーとして定期的に利用されている。技術の改善とコストの…

contigをscaffoldingする Scaffold_builder

#今回からDNAシーケンシング => DNAシークエンシングに統一。 第二世代シークエンシングは、完全なゲノムシークエンシングのための最も費用対効果が高く、すぐに利用可能な技術である。完全なゲノム配列のアセンブリとscaffoldingはしばしば課題のままとなっ…

バクテリア/アーキアのゲノム距離を計算するwebツール GGDC

DNA-DNAハイブリダイゼーション(DDH)は、古細菌および細菌種の描写のための分類学的ゴールドスタンダードとして現在も使用されているウェットラボ法である。 2つのそれぞれの生物のゲノムDNAがDDHの類似性が70%未満であることが明らかになった場合、これ…

Pacbioのpolishingツール Quiver / ArrowとバリアントコーラーPlurality

Quiverは、Pacbioがテンプレートリードを前提として、最大準尤度テンプレートシーケンスを見つける、より洗練されたアルゴリズムである。 PacBioのリードは、テンプレートシーケンスを指定してリードの準尤度をスコア付けする条件付きランダムフィールドアプ…

スモールゲノムのシンテニーブロックを探して可視化する SiberiaとC-Sibelia

2019 6/9 bioconda インストール追記 同じ微生物種内の株を比較することは、病原性の原因となる遺伝子およびゲノム領域の同定、ならびに感染症の診断および治療に有効であることが証明されている。本稿では、Sibeliaという、反復de Bruijnグラフを使用して複…

シーケンシングデータからヒトの病原性細菌かどうかを判定するwebツール PathogenFinder

2019 2/21タイトル修正 2019 2/24 コメント追記 毎年1500万人を超える人が感染症の直接の原因で死亡している。その多くは細菌感染によるものである。毎年推定130万人が結核で死亡し、200万人が百日咳を発症しているが、下痢は250万人以上の死亡の原…

QuasiRecomb

次世代シークエンシング(NGS)技術は、以前はあまりにも労働集約的であると考えられていた実験を日常的な作業に変えた(Metzker、2010)。 NGSの1つの用途は、genetic diversityを定量化するために遺伝的にheterogousなpopulationsのシーケンシングである。…

複数のアセンブラのコンティグをマージする GAM-NGS

2019 6/10 インストール追記 2019 6/11 sparsehashインストール追記 次世代シーケンシング(NGS)技術の出現により、生物圏のすべての生物を事実上 シーケンシングでききるようになった[論文より ref.1]。 NGS技術は、非常に高いデータ生産量を特徴としてお…

Varscan2 の解析の流れ

修正 不確かな情報を削除 2019 2/17 誤字修正 Using VarScan 2 for Germline Variant Calling and Somatic Mutation Detection(Daniel C. Koboldt et al., 2013)より シングルヌクレオチド変異(SNV)および小さな挿入/欠失(indels)のようなバリアントの…

MaSuRCA アセンブラ

8/28,29 dockerコマンド等、分かりにくい部分を修正 2019 5/3 動作条件追記 2019 6/12 hybrid assembly リンク追加 2019 10/9 condaインストール追記、ONTのハイブリッド追記 2001年にヒトゲノムのドラフトバージョンが作成された後、800bpを超えるリード長…

リードをマッピングしてゲノムアセンブリの精度を評価する REAPR

REAPRは、リファレンスゲノムを使わずゲノムアセンブリの精度を評価するツール。カバレッジおよびインサートサイズの分布などのマッピング情報を分析して、ミスアセンブリの位置が特定される。 誤ったアセンブリはレポートされ、新しいアセンブリが出力され…

複数ゲノムを比較してリファレンスがないデータから変異を検出する NIKS

NIKSはリファンレンスが利用できないようなサンプルについて、NGSデータを直接比較して変異を検出する方法論。k-merの分析から、サンプル特異的な配列を検出している。 本手法によって、リファレンスゲノムがない非モデル植物のホモの変異も検出することが可…

illuminaのエラーコレクションツール Musket

2018 12/07 コマンド修正 Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。 Musket HP http://musket.sourceforge.net/homepage.htm インストール cent OSに導入した。 SourceForg…

マッピングを評価するツール qplot

qplotはマッピング結果の統計情報を出力したり、empiricalなクオリティスコアとマッピング結果から求めたベースクオリティスコアの差などをグラフ化したPDFを出力することができる(既知SNPsファイルが必要)。クオリティの低い塩基(バーコードとか)が残っ…

メタゲノムデータを種レベルで検出し割合を計算するmOTUとfetch-MG

追記9/5;ソフト名や使い方を勘違いしておりましたので修正します。 環境サンプル中の種の多様性を評価する手法として16S rRNA遺伝子を特異的に増幅する手法がよく知られているが、種によっては配列の異なるrRNA遺伝子を複数持つことがある。ここにPCR増幅の…

複数のcontigをマージしアセンブリの連続性を改善する Mix

2019 6/11 追記 ゲノムアセンブリ構築の利点を得ることを妨げる課題の中には、未完成のアセンブリおよびその後の実験的な費用の両方がある。第一に、ゲノムデノボアセンブリのための多数のソフトウェアソリューションが利用可能であり、それぞれがその長所と…

fastqの操作ツール illumina-utils

illumina-utilsはpythonで記述されたilluminaのシーケンスデータのユーティリティツール。オーバーラップしたペアリードのmergeやクオリティフィルタリングを行うことができる。 インストール Github sudo pip install illumina-utils 実行方法 raw fastqのd…

RNAのクラスタリングを行う GET_HOMOLOGUES-EST

2018 9/27 引用の誤り修正 GET_HOMOLOGUES-ESTは似た配列をクラスタリングできるツールで、GET_HOMOLOGUESのforkとして開発された。植物のRNAやcDNAをターゲットにしており、塩基の相同性をBLASTNで調べ、その結果をクラスタリングして出力する。またPan-gen…

高速なRNA seqのマッピングツール STAR

2019 2/15 動画とbiocondaによる install追加 STARは高速なRNAのアライメントツール。intron-exonのsplit-alingmentに対応している。動作はbowtie2より10倍以上高速とされ、マッピング感度の高さとエラー率の低さは既存のツールと同等とされている。 githu…

アセンブリ結果を評価する QUAST

2019 4/12 quast-lg追記 QUASTはspadesアセンブラで有名なAlgorithmic Biology Labのチームが発表した、アセンブリの性能や精度を評価するツール。web版とコマンドラインでランするローカル版がある。 QUASTマニュアル ダウンロード http://bioinf.spbau.ru/…

タンパク質のコード領域を推定する TransDecoder

2019 5/8 インストール追記 2019 11/29 インストール追記 TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領…

Reference-assisted assembly 2 RACA

RACA Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。 論文では、RACAを使いGAGEのゴールデンデータセットをアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている…

Pacbioロングリードのシミュレーター PBSIM

2019 7/28 condaインストール追記 PBSIMはPacbioリードのシミュレーションを行うツール。ユーザーの持っているPacbioデータをもとにリードの長さやクオリティをシミュレートすることもできるため、実際の解析に適用しやすい。 インストール GitHub - pfaucon…