macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018-03-01から1ヶ月間の記事一覧

color spaceのアライナー CUSHAW3

次世代シークエンシング(NGS)技術の出現と急速な進歩により、ショートリードアラインメントアルゴリズムの開発には相当量の研究努力が払われてきた。様々なショートリードアライナーが開発されており、機能性の点でさらに2つの世代に分類することができる…

SAMTools互換の高速なsam,bam,cram処理ツール elprep

2019 7/28 コマンド修正 2019 8/3 リンク追加 一般にDNA配列解析はマッピングとそれに続く分析からなる(論文 図1)。マッピング段階では、BWA [論文より ref.1]のようなアライメントツールを介して既知の参照ゲノムにマッピングされる。その後、マッピング…

GUIで操作できるVCFのフィルタリング・分析ツール VCF.Filter

次世代シークエンシングは疾患関連遺伝子変異体の発見を容易にし、ルーチンの臨床診療における遺伝子診断に広く使用されている。Variant call format(VCF)は、医療遺伝学の研究および診断からの遺伝子変異データを報告するためのコミュニティ標準となって…

highly heterozygous なゲノムのアセンブリパイプライン Redundans

ショートリードからのゲノムアセンブリは、複雑な計算上の問題である。この課題に取り組むために、数多くのゲノムアセンブラが開発されている(論文より ref.1-5)。典型的には、シーケンス中にある程度の異種性(例えば、一倍体でない生物、細胞または個体…

ロングリードのエラーコレクション halc

第二世代シークエンシング技術の代表である Illuminaシークエンシング技術は、エラー率<1%(エラーは塩基置換が支配的)および $0.03–0.04 per million basesのコストで、数百塩基シーケンスできる[論文より ref.1]。ショートリードが低コストであるため、…

ONTリードのレイアウトを計算しコンセンサス配列を出力する spectrassembler

イルミナのようなハイスループットシーケンシング技術は、リード長は犠牲になるがシーケンシングコストは大幅に減らすことができる。しかし、ゲノムにはリピート配列が含まれているため、デノボアセンブリで問題になる。PacBioのSMRTやOxford Nanopore Techn…

PacBioのロングリードのシミュレーター SimLoRD

2019 2/9 インストール手順修正 2019 7/23 コマンド修正 SMRT(single molecule real time)シーケンシングのような第3世代シークエンシング技術は、第2世代の方法よりもかなり長いリードを出力可能なため、ますます使用されててきている。 SMRTのエラー特性…

ヒトゲノムの変異データマイニングプラットフォーム DaMold

次世代シークエンシング(NGS)は、日常的な遺伝子検査のための強力かつ効率的で費用効果の高い臨床ツールとなっている。それは、遺伝子的に多くの遺伝病を解読することによって有用性が証明されており、これが最も顕著なのは癌である(Ardeshirdavani et al…

オルガネラゲノムのアノテーションを行う GeSeq

次世代シークエンシング(NGS)技術は、オルガネラゲノム配列のavailabilityを爆発的に増加させた(論文より ref.1)。しかし、シーケンスアノテーションは依然として大きなボトルネックになっている。オルガネラゲノムの(半)自動注釈のための4つのツール…

オルガネラゲノムを描画する OrganellarGenomeDRAW

ミトコンドリアおよび色素体(葉緑体)は、それぞれαプロテオバクテリアおよびシアノバクテリアに由来する真核細胞の細胞内小器官である。ミトコンドリアおよびプラスチドは、二本鎖DNAのゲノムを保持しており、それらはオルガネラ内で複製および発現し、通…

DNA解析ソフト2 Serial Cloner

Serial Clonerは、MacintoshとWindowsに対応した遺伝子編集ソフトウェア。 FASTAファイルの読み書き、DNA Striderと互換性のあるファイルの読み書きをサポートする。 Vector NTI、MacVector、ApE、DNAstar、pDRAW32およびGenBank形式、さらにVectorNTIマルチ…

VCFのユーティリティツール VCF-kit

2019 7/29 condaインストール追記 2021 6/23 phyloコマンド追記 2023/09/02 追記 集団および量的遺伝学は、集団内の個体がどのように異なるかを調べる。これらの違いを特定することにより、様々な分析を行うことができる。例えば、遺伝子変異は、表現型の基…

VCF / BCFの高速なパーサ cyvcf2

2019 7/27 condaインストール追記 VCF形式(論文より Danecek et al、2011)は、DNAシーケンスの研究で観察された遺伝的変異を表すためのスタンダードである。 VCF形式の強みは、変異の位置、各遺伝子座におけるシーケンスされた個体の遺伝子型、ならびに広…

アセンブル結果をリファレンスと比較して構造変異などを可視化するAssemblytics

デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et…

変異の地理的分布を描画する GGVブラウザ

Genetic variant の重要な特徴の1つは、その地理的分布である。地理的分布は、対立遺伝子が最初に出現した場所、それがどのようなpopulationsで広がっているのか、ならびにmigration、遺伝的浮動(wiki)、および自然選択がどのように作用したかを明らかにす…

Genomic islandsを検出し視覚化する IslandViewer4

ゲノムアイランド(GIs)は、一般に、バクテリアゲノムまたはアーキアゲノムにおける水平伝達が起源の遺伝子のクラスターとして定義される(wiki)。GIはゲノム進化の主要な推進因子であり、ニッチ(論文より ref.1,2)内のバクテリアおよびアーキアの適応度…

新規にシンテシー解析が可能な SynFind

保存されたシンテニーは、共通のゲノムを共有することによって支持される遺伝子間の推測された相同性関係を指し、生物のすべての領域にわたって広く使用される測定法である(論文より Moreno-Hagelsieb et al, 2001; Engstrom et al, 2007; Heger Ponting 20…

複数種間でシンテシーブロック比較が可能なweサーバー Synteny Portal

Genome 10K Project(論文より ref.1)、 Bird 10,000 Genomes (B10K) Project(ref. 2)、i5k: Sequencing Five Thousand Arthropod Genomes Project(ref.3)など、様々な大規模ゲノムプロジェクトの成果とともに、様々な種から大量のゲノム配列が蓄積して…

ONTリードのシミュレーター NanoSim-H

NanoSim-Hは NanoSim(紹介)のforkとして開発されたONTリードのシミュレータ。以下の改善点がある。 Support for Python 3 Support for RNF read names Installation from PyPI Error profiles distributed with the main package Automatic testing using …

ロングリードのシミュレーター LongISLND

これまでシミュレーションは現実的でありながら多用途なロングリードシミュレータの欠如によって妨げられてきた。例えば、PBSIM(Ono et al、2012)は、マルチパスメカニズムまたは追加の塩基ごとの確率および下流分析ツールによって必要とされる速度論的デ…

Pacbioのロングリードアライナー HISEA

デノボゲノムアセンブリは、リファレンスゲノムを使用せずにシーケンシングリードから生物のゲノム全体を再構築する。ハイスループットのNGS技術は、微生物および真核生物ゲノムの反復領域の大部分よりもはるかに小さい、数百塩基対の短いリードを生成する。…

ロングリードからSVを検出するプロセスを高速化する rMFilter

ロングリードシークエンシング技術は、ゲノムの構造変異(SV)をより正確に調べる新しい機会を提供する。 しかし、最先端のSVコールパイプラインは計算量が多く、ロングリードのアプリケーションには制限がある。著者らは、局所ゲノム領域内の短いトークンマ…

PacBioのロングリードのアライナー rHAT

1分子リアルタイム(SMRT)シーケンシングでは、ノイズの多いロングリードをリファレンスゲノムにアライメントすることが依然としてコストのかかる作業になっている。 SMRTリードアライメントの効率性と有効性を改善するための新しいアプローチが求められてい…

アセンブリ結果を評価する CGAL

ゲノムアセンブリは、元のゲノムを再構成するために、ショットガン配列決定によって産生されたDNA配列の断片を合併するプロセスである。アセンブルの問題は、多数の式からNP困難であることが知られており[論文より ref.1〜3]、またシーケンシングエラー、実…

ハイブリッドアセンブルを行う hybridSPAdes

de Bruijnグラフのアプローチは現在、ショートリードシーケンシングプロジェクトを支配しているが、ロングリードを組み立てるアプリケーションはさまざまな課題に直面している。事実、ロングリードでのエラー率が高いと、k-merサイズの任意の合理的な選択に…

バクテリアのレプリコン情報によってcontigの並びを予測する eRParranger

微生物学では、全ゲノムシーケンシングはもはやユニークなタイプの解析ではなく、現在は個々の研究研究の中で行われている[論文より ref.1,2]。この最近の変化は、大量のデータを効率的に処理するためのバイオインフォマティクスソフトウェアの改善とともに…

ロングリードのドラフトアセンブリからコンセンサス配列を出力する Racon

2018/12/21 anacondaとtwitterリンク追記 リンクミス修正 2019 3/6 minimap2に変更, 6/12 関連ツール追記, 6/13 関連ツール追記, 7/23 コードエラー修正、ショートリード使用例追記, 7/24 ループ用スクリプト追加、解析例追加、help更新, 7/29 追記 2022/04/…

高速なロングリードのスプリットアライナー LAMSA

Illumina のSynthetic Long-Read(http://www.illumina.com/technology/next-generation-sequencing/long-read-sequencing-technology.html)、PacBio Single Molecular Real-Silence(HTS) (Eid et al、2009)およびOxford Nanopore Technologies(Eisens…

高速なRNA seqのマッピングツール DART

近年の次世代シーケンシング(NGS)プラットフォームの出現により、大量並列cDNAシークエンシング(RNA-Seq)技術は、発現の高分解能測定および低量の転写産物の検出における高感度を提供するもう一つの強力なツールとなっている。 RNA-Seqは、事前の遺伝子…

高速なRNA seqのマッピングツール HISAT2

2019 6/18 コマンド追記、6/26 インストール追記、6/28 samtoolsコマンドエラー修正 2020 3/22 help更新、4/16 multiqcとの連携例、4/29 誤解のある表現を修正、8/28 index追記, help更新 2021 1/21、8/26 インストール追記 2024/02/16 インストール手順(py…