macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017-11-01から1ヶ月間の記事一覧

メタゲノムデータからホストゲノムのコンタミを除く KneadData

2020 4/1 9 インストール手順とhelp追記、タイトル修正 2021 6/11 link修正 2022/07/02 インストール手順修正 バクテリアのメタゲノム解析では、度々ホストゲノムのコンタミリードがシーケンスされてしまうことがある。KneadDataはそのようなホスト由来のリ…

アセンブル結果の分析およびマージを行う CAMSA

2019 6/11 インストール追記、タイトル修正 ドライの計算技術およびウエット実験技術を利用して、ドラフトゲノムからゲノムを再構築する様々な方法が存在するが、それらはアセンブリの一部のみを生成する。したがって、異なる方法によって作製されたアセンブ…

数百から数千のバクテリアゲノムを比較する Harvestスイート

2019 12/9 インストール更新 2020 5/31 インストール方法修正 2020 6/8 挿入文章変更、タイトル変更 2021 6/23 vcf input追記 2023/05/14オプション名の誤り修正 現在、多くの微生物種について全ゲノム配列が利用可能になっているが、既存の全ゲノムアライン…

deep sequenceされたウィルスのアセンブルツール sparNA

sparNAはウィルスゲノムのアセンブリツール。ウィルスゲノムはRNA ploplymeraseのエラー率の高さなどの要因でhetero genesityが非常に高いため、特別な仕分け方をしない限りpopulation genomeやmeta genomeのデータセットに近い状態でシーケンス解析が行われ…

fastqのクオリティスコアをASCII +64からASCII +33に変換する。

BBtoolsのreformat.shを使えば、ASCII+64でクオリティスコアを計算しているfastqをASCII+33に変換することができる。 シングルリード reformat.sh in=input.fq out=output_phred33.fq qin=64 qout=33 ペアリード reformat.sh in1=input1.fq in2=input2.fq ou…

指定した遺伝子のターゲットエンリッチメントを行う HybPiper

HybPiperは系統解析などを行うために遺伝子領域のエンリッチメントを行うことができるツール。NGSのリードを出発点として、準備した遺伝子配列セット(bait)にリードをアライメントし(BWA, BLAST)、spadesで個別にアセンブルを実行する。出力はcDNA配列と…

NCBIからvirusゲノムをダウンロードする

Accession IDを使い、virusのゲノム配列(FASTA)をダウンロードする。 NCBIのvirus Genomesに移動する。 左下の方の"Accession list of all viral genomes"をクリックしてvirusのリストをダウンロードする。 このようなリストが入手できる。 user$ head taxid…

巨大なプロテインファミリーのマルチプルアライメントを行うFAMSA

FAMSAは大規模タンパク質ファミリーのマルチプルアライメントを可能にするアルゴリズムを持つ方法論。CPUの並列化に対応しており、数千-数十万のタンパク質ファミリーの高速なマルチプルアライメントが可能になっている。 論文中では、オーサーが定義したお…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

ウィルスゲノムのde novo assemblyツール IVA

RNAウィルスのシーケンスでは、逆転写やPCR増幅のbiasにより極めて不均一なカバレッジになってしまうことが知られている。1本の鎖の中のカバレッジが大きく変動するため、一般のde brujinグラフのアセンブルツールはもとより、鋳型量が異なるmRNAやメタゲノ…

GCbiasを考慮したイルミナのシミュレーター ArtificialFastqGenerator

ArtificialFastqGeneratorはカバレッジGCバイアスを考慮可能なNGSリードのシミュレーター。イルミナのペアードエンドfastqに対応している。 比較表 Biostars https://www.biostars.org/p/124126/ ダウンロード javaの実行ファイルがダウンロードできる。 htt…

bamCoverageを使いカバレッジトラックを作成する

2019 9/13 インストール追記 2024/.04/15更新 deeptoolsはRNA-seq解析やchip-seq解析に特化したアライメントのカウント分析ツール(webサーバ)である。ヒートマップ出力などの機能を持ち、ツールの中にあるbamCoverageを使うと、bamのカバレッジ情報をwig形式…

メタゲノム内の遺伝子を系統樹的に分類するためのスケーラブルなツール GraftM

2022/05/04 インストール手順修正 gtaftMは指定した遺伝子ファミリーをメタゲノムデータから探し出し、あらかじめ作成した系統樹に配置するためのツール。 HP GraftM - How to get fast community profiles from metagenomes manual https://github.com/gero…