macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

GFF ファイルのユーティリティ Gffread

多くのバイオインフォマティクスプログラムは、遺伝子および転写産物をGFF形式(General Feature Format)で表し、ゲノム上の遺伝子および転写産物の特徴(染色体またはscaffolds/contigs)の位置と属性を簡単に説明する。GFFには多くのバージョンがあるが、…

微生物ゲノムアセンブリの品質と比較ゲノミクス(correspondence要約)

私(論文のオーサー;hereafter、私)の最近の研究では、低品質の細菌ゲノム配列(ここでは「多くのコンティグを含むゲノム配列アセンブリ、最終的には明らかなミスアセンブリと未解決のプラスミド配列」と定義)を扱ってきた。主要な問題は、ゲノムのクオリ…

Gene Ontologyデータベース AmiGO2

AmiGOのペーパーより Gene Ontologyプロジェクト[GO(http://www.geneontology.org); Gene Ontology Consortium、2000]は、構造化された統制語彙、またはオントロジーを開発し、遺伝子およびその産物(遺伝子産物)の基本的な特性を種に依存しない方法で記…

複数のFASTAファイルをNNN...で連結する CombineFasta

タイトルの通りのツール。 インストール Technically, this program works on all operating systems; however, it has only been tested on Linux. 依存 Java jdk version 1.8 This git repository A decent (>16Gb) amount of RAM Github git clone https:…

メタゲノムのハイブリッドアセンブリツール OPERA-MS

腸内微生物叢は、ホストの健康に寄与する多様な代謝特性を付与する数百種の豊かなコミュニティを持っている(ref.1)。また、抗生物質耐性遺伝子の貯蔵庫としても機能し、数え切れないほどの細菌が絶え間なく選択されて(たとえば、食事や抗生物質を介して)…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

EnsemblのGenomic feature座標変換機能(CrossMap)

2019 8/22 リンクミス修正 Ensemblのゲノム座標変換ツールを紹介する。オンラインで使用できる。 使い方 Ensembl Tools https://asia.ensembl.org/info/docs/tools/index.html Assembly Converterを選択する。 またはEnsemblのモデル生物ゲノムページからCon…

Genomic featureの座標を変更する UCSC liftOver

ヒトの場合は代表的なリファレンスゲノムもいまだ不完全であり、更新が繰り返されている。また、ゲノムがFinishしているスモールゲノムでも、株や系統の違いによる座標の違いがあり、研究によってはリファレンスゲノムを更新し、coding reginやexonなどのgen…

包括的なfunctional annotationを行うwebツール FunctionAnnotator

シーケンス技術の向上により、次世代シーケンス(NGS)がトランスクリプトーム研究にますます頻繁に使用されている。適切なリファレンスゲノムがないため、非モデル生物のトランスクリプトームの分析はモデル生物のトランスクリプトームと非常に異なる。 Tri…

Functional annotationを行うwebサーバー GO FEAT

2019 8/17 タイトル修正 、tips追記 ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベース…

補足資料1

作成中 章末補足資料 1、データのアップロード 同じE.coliと言っても、数百以上の様々なゲノムが登録されている。また同じ系統の株でもGene IDなどは統一されていない。そのため、100%塩基配列が同じゲノムと考えてわずかに違う株のアノテーション情報を使…

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコストおよび生産時間のボトルネックを有している。著者らは11のヒトゲノム用に最適化されたPromethIONナノポアシーケンス…

多機能な配列処理ツール VSEARCH(USEARCHの代替)

2019 8/9 説明の誤り修正 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩は、深海熱水孔から南極湖、そして熱帯林からシベリア草原まで…

FASTA配列のオンラインツールボックス FaBox

FaBoxは、生物学者や医学研究者がシーケンスデータを使用して典型的なタスクを迅速に実行できるようにする、シンプルで直感的なWebサービスのコレクションである。 このサービスを使用すると、シーケンスヘッダーを簡単に抽出、編集、置換し、ヘッダー情報に…

fasta/fastq/bamのユーティリティツール fxtools

インストール ubuntu16.0.4でテストした。 本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…

複数のシーケンシング技術に対応したドラフトアセンブリpolishingツール Apollo

第三世代のシークエンシング技術は900Kもの塩基対(bp)を含むロングリードをシークエンシングすることができる。これらの長いリードは、アセンブリ(すなわち対象のゲノム)を構築するために使用される。残念なことに、第3世代のシーケンシング技術は高いシ…

マッピングからコンセンサス配列を出力するbcftoolsのconsensusコマンド

2019 8/5 bcftools help追加 変異株のリファレンスをゲノムに当て、その個体についてコンセンサス配列を作成したいことがある。 これはbcftoolsのconsensusコマンドを使って実行可能である。 https://samtools.github.io/bcftools/howtos/consensus-sequence…

elprep 4

elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプラインでどの準備ステップ…

VCFの要約統計を出力するRTG toolsの rtg vcfstatsコマンド

2019 8/3 コマンドのミス修正 RTG toolsはRTGコアのサブセットである。VCFファイルの高度な比較を実行するvcfevalなど、VCFファイルとシーケンスデータを扱うための便利なユーティリティが含まれている。vcfevalが特に重要なコマンドだが、ここではvcfの簡単…

ロングリードを使ってリファレンスベースのアセンブリとpolishを行う Rebaler

優先順位の高いジョブがたまっているため、お盆明けくらいまで不定期更新にします。よろしくお願いいたします。 Rebalerはロングリード使用してリファレンスベースのアセンブリを実行するためのプログラムである。細菌ゲノム用に作られている。 Method (Git…

viral quasispeciesのクラスタリング(binning)ツール VirBin

ウイルス集団内の高い遺伝的多様性が、HIV、HCVなどのRNAウイルスによる慢性感染症の患者において観察されている(Sullivan et al、2007; PerrinおよびTelenti、1998)。遺伝的多様性は、異なる株の多重感染、または宿主内でのウイルス複製中の変異によって…

ニューラルネットワークを使ってONTのロングリードの低クオリティ領域を除く MiniScrub

Pacific Biosciences [ref.1]やOxford Nanopore [ref.2]のような企業のシーケンシング技術がゲノムアセンブリ[ref.1]、[ref.10]、抗菌剤耐性遺伝子[ref.18]、個人用トランスクリプトームシーケンシング[ref.19]、およびドラフトゲノム[ref.20]の改善に寄与し…

マッピングベースでゲノムサイズを推定する MGSE

現在では植物のほぼすべての部分を測定することが可能になってきているがが、植物ゲノムのサイズを評価することは依然として困難である。染色体サイズは顕微鏡下で測定することができるが[ref.1]、単一細胞内の全DNA分子の合計の長さはまだ不明である。シロ…

ヒトとマウスの様々なアライナー用indexをダウンロードできる Refgenie

2019 8/15 リンク追記 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラインメントとアノテーションを行う広範囲の下流ツ…

アラインメントのPAFファイルを扱うユーティリティ paftools

Minimap2には、PAFフォーマットのアライメントを処理する(java)スクリプトpaftools.jsが付属している。paftoolsを使うことで、 アセンブリをリファレンスゲノムにアラインメントしてバリアントをコールしたり、PAF/SAMからBEDなどのフォーマットに変換した…

bamファイルを使ってDNA/RNAシーケンスのピーク定量やbigwigのcoverage trackを作成する BAMscale

BAMscaleは、chromatin binding(ChIP-seq)およびクロマチン状態変化(ATAC-seq、END-seq)やchromatin state changes(ATAC-seq, END-seq)、RNA seqのシーケンシングデータセットを処理するワンステップツールである 。 出力には、テキスト形式の正規化さ…

fasta/fastqのlow complexity領域をマスクする komplexity

komplexityはFAST [A / Q]ファイルから複雑度の低いシーケンスをすばやく計算および/またはマスクするために開発された。複雑さを評価するために、長さで割ったシーケンス上の一意のk-mer値を使用する。例えばk = 4の場合、正規化複雑度スコアが<0.55である…

アラインメントフリーの配列比較GUIツール CAFE

配列比較は、分子配列間の関係を研究するために広く使用されている。配列比較のための主なツールは、global(ref.1)およびlocal(ref.2)シーケンスアラインメントを含むアラインメントベースの方法である。 BLAST(ref.3)のようなアラインメントベースの…

de novo transcriptomeのアセンブリツール TransLiG

オルタナティブスプライシングは真核生物遺伝子における遺伝子調節の重要な形態であり、遺伝子機能の多様性ならびに疾患のリスクを増大させる[ref.1、2、3]。報告されているように[ref.4]、[ref.5]、ヒト遺伝子を含む真核生物遺伝子のほとんどはオルタ…

アンプリコンシーケンスのペアエンドリードマージツール MeFiT

次世代シークエンシング技術は,その開始以来,研究者が複雑なシステムから多面的な生物学的情報を抽出する方法を変え、ヒト疾患,環境科学、進化科学などの分野における研究を促進してきた。16S rRNA小サブユニット遺伝子、またはより一般的にはその一部のシー…