macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018-08-01から1ヶ月間の記事一覧

バクテリオファージのホストを推測する HostPhinder

2012年、世界保健機関(WHO)は抗生物質時代の終焉の始まりと、ささいな細菌感染でさえ致命的になる時代に戻りうることを発表した[論文より ref.3]。それ以来、抗生物質耐性の問題は増大し続けており、WHOレポート「Antimicrobial resistance: global report…

ラージゲノムにも対応したcontigのscaffoldingツール BESST

近年のハイスループットシーケンシング(HTS)技術は、低コストで数百万の短いDNA配列(リードと呼ばれる)を生成するため、デノボアセンブリプロジェクトにとって魅力的である。しかしながら、これらのリードは数百bpの長さしかないため、アセンブラ(例え…

Procaryote向けの自動アセンブリパイプライン A5-miseq

ゲノムアセンブリは、rawシーケンシングデータから始まり、スキャホールディングされたコンティグで終わる全データ処理ワークフローからなる。この手順は、アダプタのトリミング、クオリティフィルタリング、エラー訂正、コンティグの作成、アセンブリへのリ…

アセンブリの簡単なstatisticsを出力する assembly-stats

assembly-statsはsanger-pathogensのGithubレポジトリで公開されているアセンブリ配列の簡単な要約統計を出力するツール。 インストール mac os10.13でテストした。 本体 Github #condamamba install -c bioconda assembly-stats -y ラン fastaファイルを指…

複数のアセンブラのコンティグをマージする GAM-NGS

2019 6/10 インストール追記 2019 6/11 sparsehashインストール追記 次世代シーケンシング(NGS)技術の出現により、生物圏のすべての生物を事実上 シーケンシングでききるようになった[論文より ref.1]。 NGS技術は、非常に高いデータ生産量を特徴としてお…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

Reference-assisted assemblyのツール: CSARをwebで使える CSAR-web

DNAシーケンシング技術の継続的な進歩により、適度なコストでますます多くのゲノムが迅速にシーケンシングできるようになっている(論文より ref.1)。しかしながら、現在のDNAシーケンシングプラットフォームから生成された膨大な数のリードのアセンブリに…

ラージゲノムにも対応したdot plot解析ツール D-GENIES

2023/12/01 追記 ドットプロットは、2組のシーケンスを視覚的に比較するために一般的に使用される。それらは挿入、欠失、逆位またはリピートを容易に理解できる方法で提示する。可変の線の太さ、線の形または色を使用して類似点の差異を表すことができる。産…

mauveを使いcontigをリファレンスfasta順に並べ替える

2019 6/11追記 http://darlinglab.org/mauve/user-guide/reordering.html より。 インストール mac os 10.13でテストした。 mauveのHPからインストーラーをダウンロードする。 http://darlinglab.org/mauve/download.html ラン 1、起動したらメニューのTools…

review article要約 SNPs callingビギナーズガイド

8/24 誤字修正 A beginners guide to SNP calling from high-throughput DNA-sequencing data (Andre ́ Altman et al., 2012)より ハイスループットDNAシークエンシング(HTS)は、ライフサイエンスにおいてますます重要になっている。その最も顕著な用途…

Varscan2のCNV検出をワンライナーで行うラッパーツール

Varscan2のtumor-nomalペアのCNV検出をワンライナーで行うラッパーツールが公開されている。 Varscan2 VarScan - Variant Detection in Massively Parallel Sequencing Data 以下の作業を行う。 The Varscan wrapper script runs the following: samtools fl…

Varscan2 の解析の流れ

修正 不確かな情報を削除 2019 2/17 誤字修正 Using VarScan 2 for Germline Variant Calling and Somatic Mutation Detection(Daniel C. Koboldt et al., 2013)より シングルヌクレオチド変異(SNV)および小さな挿入/欠失(indels)のようなバリアントの…

virusゲノムを同定する GENOME DETECTIVE

Genome Detectiveは、ウイルスのゲノムを迅速かつ正確にアセンブリする使いやすいWebベースのソフトウェアアプリケーションである。提出された入力シーケンスデータ内のすべてのウイルス種について、真核生物ウイルスおよびファージからの配列に分類学的名称…

バクテリアのsub-populationsのレアバリアント検出ツール VarCap

8/20 sambambaコマンドミス修正、varscan2バグに対応する迂回コマンド追加 1つの原核生物種のheterogeneityな集団の遺伝子型決定(genotyping)は、一般的な選択圧下での集団(populations)組成および動態に関する微生物学的問題に対処するためにますます重…

高感度なバリアントコーラー LoFreq

2020 1/5 ツイッターリンク追記、12/15 help更新 2023/07/24 追記 シーケンシング技術の最近の進歩により、細胞集団におけるheterogeneityおよびsub-populationsのより広範な研究、およびそれらの進化による「コンセンサス配列」からの移行が可能になった。…

review article要約 ラージゲノムのシーケンシング解析

はじめに この記事はレビュー論文の要約です。チェックリスト、または思考を整頓するガイドとして使ってください。ただし、この要約で論文を読んだことにはなりません。時間が許す限り原著論文を読むことをお勧めします。review articleは各段落が一般論で構…

高速な端末エミュレータ Alacritty

AlacrittyはRustで書かれたGPUをレンダリングに使う高速な端末エミュレータ。OpenGL(wiki)を使ってレンダリングを行う。開発はまだアルファ段階らしいが、すでに色々なプラットフォームに対応している(windowsはこれかららしい)。開発の大きな動機は、WU…

CUI環境のマルチプルシーケンスアラインメントビューア Alan

2020 7/28 タイトル修正 Alanはターミナル(端末エミュレータ)で動くアライメントのビューア。GUIに頼らず端末内で確認作業を完結させることができる。 インストール ubuntu18.04でテストした。 --対応フォーマット-- FASTA、Clustal format alignments 本…

大規模なメタゲノムのシミュレータ CAMISIM

2019 3/8 タイトル修正 図追加 2021 6/5 追記 16q rRNAアンプリコンとショットガンメタゲノムシーケンシングは、健康や病気に関するヒトマイクロバイオーム研究に広範に使われている[prepirntより ref.1, 2] 。私たちはその後、天然に存在する微生物群集は、…

ターゲットキャプチャシーケンシングをシミュレートする capsim

高スループットシークエンシング(HTS)は、費用対効果が高く時間効率の良いサンプルの完全な遺伝情報を得る能力を持ち、ゲノム研究に大きく革命をもたらした。多くの臨床応用において、作用可能な領域のパネルのみが調査対象である(Bellos et al、2014; Sa…

YSTRなどのショートタンデムリピートを探す STRScan

マイクロサテライトまたは単純配列反復(SSR)とも呼ばれる短いタンデムリピート(STR)は、タンデム反復ユニット(1〜6 bps)を約2〜30個含む短いストレッチのDNAである。 STRは、ヒトなどの哺乳動物ゲノムを含む多くの原核生物および真核生物ゲノムに存在…

WIGファイルの圧縮と解凍を行う smallWig

NGSのシークエンシング技術の発達により、DNA / RNAのシーケンスと発現解析のコストが劇的に減少した。 RNA-seqは、様々な種および生物、ならびに異なる器官および細胞集団の全トランスクリプトーム情報を提供する、重要かつ安価な技術になった。RNA-seq実験…

50近いバクテリアの1万以上の機能未知遺伝子欠損の影響をまとめた Fitness Browser

注意: タイトルには 機能未知遺伝子だけ相手にしたように書いてますが、実験はゲノム全体の遺伝子をターゲットにランダムかつ網羅的に行われており、mutant phenotypeの影響を調べた遺伝子数自体は1万よりずっと多くなります。実験結果をまとめたFitness Br…

sam/bamがmalformedではないか調べるPicardのValidateSamFile

sam/bamをいじっていると、ヘッダーが無かったり重複したり、ダウンロードが不完全だったり、様々な理由でおかしくなってしまうことがある。PicardのValidateSamFileはsam/bamにエラーがないか分析するコマンド。実行するとエラーが見つかったところを教えて…

アンプリコンシーケンシングのdenoiseを行う DUDE-Seq

次世代シーケンシング(NGS)技術と呼ばれる新しい世代の高スループット、低コストのシークエンシング技術が、大規模な比較研究や進化研究などの生物医学研究を再構成している[ref.2-4]。自動サンガーシーケンシングと比較すると、NGSプラットフォームは、大…

複数のSV検出結果を統合し、精度の高いSVコールを行う MetaSV

8/19 pindel、lumpy、cnvkit、breakdanerコマンドミス修正 SVは、ゲノムの多様性およびゲノムの障害に寄与することに関与している(Stankiewicz and Lupski、2010)。したがって、SVの検出には相当量の作業が行われている。一般に、SVを検出するためのツール…

コピー数変化の検出と可視化ツール CNVkit

2020 3/22 実行例追記 2022/04/29 インストール手順修正 コピー数変化は、ガンを含む多くの疾患の有用な診断指標である。ゲノム全体のコピー数解析のゴールドスタンダードは、 array comparative genomic hybridization(array CGH)である[論文より ref.1,2…

オリジナルfastqと比較してbamのリード情報が完全に同じかどうか調べる BamHash

(ゲノム)リシーケンシングプロジェクトは、既知ゲノムを有する種の個体のシーケンシング解析であり、大量のraw シーケンシングリードを生成し、その後、これらはリファレンスゲノムにアライメントされる。シーケンシングコストが減少し、現在のシーケンシ…