macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2013

複数のアセンブラのコンティグをマージする GAM-NGS

次世代シーケンシング(NGS)技術の出現により、生物圏のすべての生物を事実上 シーケンシングでききるようになった[論文より ref.1]。 NGS技術は、非常に高いデータ生産量を特徴としており、あらゆる生物で高いカバレッジのデータを手に入れることができる…

Varscan2 の解析の流れ

修正 不確かな情報を削除 Using VarScan 2 for Germline Variant Calling and Somatic Mutation Detection(Daniel C. Koboldt et al., 2013)より シングルヌクレオチド変異(SNV)および小さな挿入/欠失(indels)のようなバリアントの同定は、リシークエ…

MaSuRCA アセンブラ

8/28,29 dockerコマンド等、分かりにくい部分を修正 2001年にヒトゲノムのドラフトバージョンが作成された後、800bpを超えるリード長を有する第1世代(すなわちSanger)シーケンス技術を使用して、多くのスモールゲノムおよびラージゲノムのシーケンスが決定…

リードをマッピングしてゲノムアセンブリの精度を評価する REAPR

REAPRは、リファレンスゲノムを使わずゲノムアセンブリの精度を評価するツール。カバレッジおよびインサートサイズの分布などのマッピング情報を分析して、ミスアセンブリの位置が特定される。 誤ったアセンブリはレポートされ、新しいアセンブリが出力され…

複数ゲノムを比較してリファレンスがないデータから変異を検出する NIKS

NIKSはリファンレンスが利用できないようなサンプルについて、NGSデータを直接比較して変異を検出する方法論。k-merの分析から、サンプル特異的な配列を検出している。 本手法によって、リファレンスゲノムがない非モデル植物のホモの変異も検出することが可…

illuminaのエラーコレクションツール Musket

Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。 Musket HP http://musket.sourceforge.net/homepage.htm インストール cent OSに導入した。 SourceForge tar xvf musket-1.1.tar…

マッピングを評価するツール qplot

qplotはマッピング結果の統計情報を出力したり、empiricalなクオリティスコアとマッピング結果から求めたベースクオリティスコアの差などをグラフ化したPDFを出力することができる(既知SNPsファイルが必要)。クオリティの低い塩基(バーコードとか)が残っ…

メタゲノムデータを種レベルで検出し割合を計算するmOTUとfetch-MG

環境サンプル中の種の多様性を評価する手法として16S rRNA遺伝子を特異的に増幅する手法がよく知られているが、種によっては配列の異なるrRNA遺伝子を複数持つことがある。ここにPCR増幅のbiasもかかってくるため、16S rRNAだけでメタゲノムデータを評価する…

複数のcontigをマージしアセンブリの連続性を改善する Mix

Mixはバクテリア向けに設計された、複数のconitgをマージしてより長いcontigを作る方法論。うまく使えば、細分化されたcontigをからより長いcontigを作ることができる。 インストール 依存 python 2.7 (http://www.python.org/) python-networkx 1.6-2 (http…

fastqの操作ツール illumina-utils

illumina-utilsはpythonで記述されたilluminaのシーケンスデータのユーティリティツール。オーバーラップしたペアリードのmergeやクオリティフィルタリングを行うことができる。 インストール Github sudo pip install illumina-utils 実行方法 raw fastqのd…

RNAのクラスタリングを行う GET_HOMOLOGUES-EST

2018 9/27 引用の誤り修正 GET_HOMOLOGUES-ESTは似た配列をクラスタリングできるツールで、GET_HOMOLOGUESのforkとして開発された。植物のRNAやcDNAをターゲットにしており、塩基の相同性をBLASTNで調べ、その結果をクラスタリングして出力する。またPan-gen…

高速なRNA seqのマッピングツール STAR

STARは高速なRNAのアライメントツール。intron-exonのsplit-alingmentに対応している。動作はbowtie2より10倍以上高速とされ、マッピング感度の高さとエラー率の低さは既存のツールと同等とされている。 github https://github.com/alexdobin/STAR マニュ…

アセンブリ結果を評価する QUAST

QUASTはspadesアセンブラで有名なAlgorithmic Biology Labのチームが発表した、アセンブリの性能や精度を評価するツール。web版とコマンドラインでランするローカル版がある。 QUASTマニュアル ダウンロード http://bioinf.spbau.ru/quast ローカル版はbrew…

タンパク質のコード領域を推定する TransDecoder

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

Reference-assisted assembly 2 RACA

RACA Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。 論文では、RACAを使いGAGEのゴールデンデータセットをアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている…

Pacbioロングリードのシミュレーター PBSIM

PBSIMはPacbioリードのシミュレーションを行うツール。ユーザーの持っているPacbioデータをもとにリードの長さやクオリティをシミュレートすることもできるため、実際の解析に適用しやすい。 インストール GitHub - pfaucon/PBSIM-PacBio-Simulator: This is…