macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2019

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコストおよび生産時間のボトルネックを有している。著者らは11のヒトゲノム用に最適化されたPromethIONナノポアシーケンス…

複数のシーケンシング技術に対応したドラフトアセンブリpolishingツール Apollo

第三世代のシークエンシング技術は900Kもの塩基対(bp)を含むロングリードをシークエンシングすることができる。これらの長いリードは、アセンブリ(すなわち対象のゲノム)を構築するために使用される。残念なことに、第3世代のシーケンシング技術は高いシ…

elprep 4

elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプラインでどの準備ステップ…

ロングリードを使ってリファレンスベースのアセンブリとpolishを行う Rebaler

優先順位の高いジョブがたまっているため、お盆明けくらいまで不定期更新にします。よろしくお願いいたします。 Rebalerはロングリード使用してリファレンスベースのアセンブリを実行するためのプログラムである。細菌ゲノム用に作られている。 Method (Git…

viral quasispeciesのクラスタリング(binning)ツール VirBin

ウイルス集団内の高い遺伝的多様性が、HIV、HCVなどのRNAウイルスによる慢性感染症の患者において観察されている(Sullivan et al、2007; PerrinおよびTelenti、1998)。遺伝的多様性は、異なる株の多重感染、または宿主内でのウイルス複製中の変異によって…

マッピングベースでゲノムサイズを推定する MGSE

現在では植物のほぼすべての部分を測定することが可能になってきているがが、植物ゲノムのサイズを評価することは依然として困難である。染色体サイズは顕微鏡下で測定することができるが[ref.1]、単一細胞内の全DNA分子の合計の長さはまだ不明である。シロ…

ヒトとマウスの様々なアライナー用indexをダウンロードできる Refgenie

2019 8/15 リンク追記 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラインメントとアノテーションを行う広範囲の下流ツ…

bamファイルを使ってDNA/RNAシーケンスのピーク定量やbigwigのcoverage trackを作成する BAMscale

BAMscaleは、chromatin binding(ChIP-seq)およびクロマチン状態変化(ATAC-seq、END-seq)やchromatin state changes(ATAC-seq, END-seq)、RNA seqのシーケンシングデータセットを処理するワンステップツールである 。 出力には、テキスト形式の正規化さ…

de novo transcriptomeのアセンブリツール TransLiG

オルタナティブスプライシングは真核生物遺伝子における遺伝子調節の重要な形態であり、遺伝子機能の多様性ならびに疾患のリスクを増大させる[ref.1、2、3]。報告されているように[ref.4]、[ref.5]、ヒト遺伝子を含む真核生物遺伝子のほとんどはオルタ…

アセンブリ過程でロングリードをフィルタリングする fpa

以前、ロングリードのアセンブリ前処理ツール yacrdを紹介した。 今回はアセンブリ過程でフィルタリングして出力を調節するfpaを紹介する。 以下のフィルタリングが行える (Githubより)。 internal match containment dovetails self matching read name mat…

マッピングベースのメタゲノム存在量プロファイリングを行う MiCoP

微生物は、土壌、海水、人体など、地球上のほとんどすべての生態系に遍在している。単細胞生物はこれらの環境のそれぞれにおいて多くの重要な役割を果たしている[ref.1、2]。サンプル中に存在する微生物を特定することは、これらの生物によってどのような機…

アセンブリグラフからプラスミドを検出する HyAsP

プラスミドはバクテリアで一般的なextra-chromosomalのDNA分子である。プラスミドは、それらの長さ(それらはchromosomeよりはるかに短い傾向がある)、コピー数(プラスミドは細胞内に複数のコピーで存在する場合がある)およびGC含有量などの様々な特徴に…

Pacbioシーケンシングリードのオーバーラップ検出感度を改善する GroupK

リード長の増加により、第3世代のシークエンシングでゲノムアセンブリのギャップを埋め[ref.1, 2]、構造の変化を明らかにし[ef.13]、トランスクリプトームシークエンシングで遺伝子アイソフォームをより正確に定量できるようになった[ef.14]。さらに、ロング…

メタゲノムシーケンシングリードをアセンブリしてvirusゲノム配列を探す自動パイプライン virMine

真核生物および原核生物とは対照的に、ウイルスゲノムはごく一部のみがシーケンシングされ特徴付けられている。ウイルスのメタゲノム研究は、地球上でのウイルスの多様性についての理解を深めるうえで極めて重要である。海水(Breitbart et al、2002; Yoosep…

バクテリアの表現型情報データベース BacDive

原核生物は、研究開発との関連性が高い多種多様な表現型形質を発現する。バクテリアのメタデータのホットスポットとしてよく利用できるのは、最初の(一次)文献で報告された種の説明と、生物資源センター(BRC)によって管理されているデータベースである(…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボアセンブリ)のための重要な技術となりつつある。この種のデータに対する新しいバイオインフォマティクス手法が急速に登場し…

メタゲノムデータセットをタンパク質レベルでアセンブリし、ホモログサーチを行う GRASP2

メタゲノミクスは、特定の微生物群集のゲノム含有量を研究するための培養に依存しないアプローチである。典型的なメタゲノミクス研究では、環境サンプルから微生物のDNAが抽出され、次世代シークエンシング(NGS)技術を使用してシークエンシングされる。中…

(メタゲノム向け) blastアノテーション結果をインタラクティブなグラフで視覚化する Keanu

メタゲノミクスは、環境サンプルから回収された遺伝物質の研究である。これらのサンプルは、特定の環境の多様性や生態学に関する情報を提供する。メタゲノミクス研究は通常、ショットガンシーケンスデータセットから得られた微生物シーケンスに焦点を当てて…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

ショートリードのマッピングを行う Whisper

リファレンスゲノムへのリードのマッピングは、シークエンシングデータ解析パイプラインの最初のステップである。シーケンシングコストが削減していることから、合理的な時間内に増大する量の生成データを処理することができるアルゴリズムに対する必要性が…

メタバーコディングのデータベース配列キュレーションなどを行うツールキット MetaCurator

配列ベースの生物学的コミュニティの特徴付けの過程において、配列の教師ありのtaxonomic classification は重要な目標である。多数の配列分類ソフトウェアプログラムは、配列類似性を測り、そして配列類似性と分類学的所属との間の関係をモデル化することに…

ヒトのガン原遺伝子/腫瘍抑制遺伝子の変異を視覚化するwebツール Mutplot

シーケンシング技術開発はガン研究に革命をもたらした。約20年に及ぶ発展後、次世代シーケンシング(NGS)は速くて手頃な価格になっている。それは精密医療を臨床の現実にした。 NSGは、臨床現場での治療法を個別化し、研究情報を広げるための包括的なビッグ…

(Omics向け) 従来のベン図表現を拡張する DiVenn

ハイスループットデータ技術の進歩により、詳細な分析なしに膨大な量の遺伝子発現データが生成されてきた。例えば、INVEX (Xia et al., 2013)、ExAtlas (Sharov et al., 2015)、そしてWebGIVI (Sun et al., 2017)などのいくつかのウェブベースの視覚化ツール…

メタゲノムのファージ配列分析webサーバー VirMiner

2019 6/15 誤字修正 ウイルスは、それらの恒常性および進化に寄与する微生物群集の必須の構成要素である。ヒトの腸内細菌叢のウイルス群集はバクテリオファージが支配的である[ref.1]。ファージは遺伝子水平伝播(HGT)[ref.2]によって細菌群集の構造と機能…

Long terminal repeats retrotransposonsをゲノム配列からde novoで発見する LtrDetector

以前は「ジャンクDNA」と考えられていたゲノムの遺伝子間領域の配列は、生物学者の間でますます注目を集めている。これらの領域の特に顕著な特徴は、一種のリピート配列である転移因子(TE)の普及率である。 TEには、RNAを使用して複製して自分自身を「コピ…

様々なデータベースを使ってヒトミトコンドリア変異のアノテーションを行う hmtnote

2019 6/11 データベース追記 HmtNoteは、VCFファイルからヒトのミトコンドリアのバリアントにアノテーションを付けるためのPythonパッケージである。バリアントは、基本、相互参照、変動性、予測のサブセットにグループ化された幅広い情報を使用してアノテー…

contigやシーケンシングリードのリファレンスへのアラインメントを複数の方法で視覚化する Alvis

2019 6/10 誤字修正 2019 6/21 リンク追加 2セットの配列間のアラインメントを見つけることは、バイオインフォマティクスにおける基本的な作業である。ロングリードの解析、アセンブリ結果の評価、またはターゲットキャプチャープロトコルの評価では、リファ…

環状RNA(circRNAs)を検出する ACValidator

環状RNA(circRNAs)は、エキソンが互いにバックスプライスするときに形成される進化的に保存されたRNA分子種である。これらのバックススプライシングジャンクションを検出するための現在の計算アルゴリズムは分岐した結果を生じるので、それ故、真のポジテ…

metaplasmidSPAdes

2019 6/7 出力例 プラスミドは、それらの生存および適応にとって重要なさらなる遺伝物質を細菌宿主に提供するクロモソーム外に独立して複製されるDNA分子である。シーケンシング時代より昔は、抗生物質耐性または難治性有機化合物を分解する能力など、それら…

転写領域アノテーションのためSRAのデータをサンプリングしてマッピング率等を評価する VARUS

2019 6/3 何も表示されないバグを修正 非常に大量の次世代シークエンシング(NGS)データがNCBIのシークエンスリードアーカイブ(SRA)[ref.1]やENA[ref.2]などの公共のデータベースに保管されている。これを書いている時点で、2019年3月に、SRAは約2.7 * 10…