macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018-04-01から1ヶ月間の記事一覧

k-merを使ったリードフィルタリングを行う Cookiecutter

2022/02/08 インストール追記 次世代シークエンシング技術は、より安価になり、ルーティンの分析に役立っている。アセンブリの前に未処理のリードから特定のシーケンスを抽出または削除することを必要とする多くのタスクがある。抽出された領域特異的なリー…

ロングリードのクオリティ分析とトリミングを行う Filtlong

#2022/04/20 追記 FiltlongはONTのロングリードのクオリティ分析やクオリティ、リード長のトリミングが行えるツール。ウルトラロングリードを低クオリティ領域でカットして、分割出力する機能も備える。2018年4月現在Githubで公開されている。 インストール …

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

2019 3/5 インストール追記、コマンドのわかりにくい部分を修正 2019 5/14 リンク追加 2019 5/27 docker追加、オプションヘルプ追加 2019 8/27 twitter追記 ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。…

構造多型部位のマッピング状況を出力する samplot

2020 9/26 Preprint引用、condaによるインストールコマンド、help追記 2021 5/27 論文追記 構造変異(SV)検出において、視覚的な検証は偽陽性を排除するために不可欠なステップである。著者らは、ショートリード、ロングリード、フェーズドリードを含む、複…

Structural variationsのシミュレーター SVGen

SVGen Documentより 構造変異(SV)用の既存のシミュレーションツールは、一部はSNV(single-nucleotide variants)をシミュレートせず、またシミュレートされたシーケンスリードを生成してSVコーラーソフトウェアをベンチマークする外部プログラムが必要と…

4つの信号を使ってSVを検出する vaquita

次世代シークエンシング(NGS)は、がん[論文より ref.13]や希な遺伝病[ref.2]などの疾患に直接関連する遺伝子変異を発見する目覚しい機会を提供する。従って、そのような変異を同定することにおいてますます注目が集まっている。変異の大きさは、1塩基対か…

様々な構造変化を検出する TIDDIT

2021 6/6 インストール追記 ゲノム構造変異(SV)は大きなゲノムの再編成と定義され、逆位、転座、ならびに欠失および重複からなる(preprintより ref.1)。SVは、多くの異なるヒト遺伝的障害における直接的原因および寄与因子の両方であることが示されてお…

高速なショートリードとロングリードのアライナ Kart

次世代シーケンシング(NGS)により、生物学者はヌクレオチド分解能でゲノム全体の変異を調べることができる。数多くの画期的な発見に寄与し、DNAの配列決定や集団内の変異の特徴付けに非常に一般的な手法となっている。新しいシークエンシング技術は、1日に…

somaticやmixed tumorのSNPsやSVをシミュレートする Pysim-sv

構造変化(SV)はドナーゲノムの構造変化をもたらすゲノム変異である。Indels、コピー数変動(CNV)およびゲノム再編成はすべてSVのサブクラスである。多くの研究は、SVが正常なヒト集団[論文より ref.1,2]ならびに癌ゲノム[ref.3-5]において広く広がってい…

ラージゲノムにも対応したReference-assisted assemblyのツール Chromosomer

2019 11/12 コマンド修正 2020 9/15 タイトル変更 染色体の組み立ては、あらゆる真核生物ゲノムプロジェクトの重要な部分である。組み立てられたゲノムの数は毎年増加し、それらの多くは物理的な染色体地図に固定されている[論文より ref.1]。堅牢な黒モソー…

コンパクトなhashテーブルを用いた高速なマッピングツール FEM

DNA配列決定は、生物学および医学の多くの分野において強力な技術となっている。過去10年間のハイスループットシーケンシングプラットフォームにおける技術革新により、ゲノミクスの分野で革命が起こった。 1回のシーケンスで、数十億回のショートリードを迅…

ヒトゲノムの統合バリアント検出パイプライン speedseq

2018 8/7 ホストからジョブを投げるようにコマンド修正 2018 8/8 realignコマンド修正 2020 4/15 コマンド記載ミス修正 2022/09/17 タイトル修正 第2世代のDNA配列決定技術の技術的進歩により、全ゲノム配列決定(WGS)データを生成するために必要なコストと…

並列化に対応した高速な変異検出ツール GROM

1000ゲノムプロジェクト(論文より ref.1)は、1000ゲノムの全ゲノムシーケンシング(WGS)の作成と解析を目的として、2008年に開始された。コスト削減とシーケンシングのスループットが向上することで、Human Longevity Inc.(CEOはクレイグベンダー)の公…

ゲノムを比較する MUMmer

2018 9/1-9/6 アライメントワークフロー 2018 11/25 誤字修正 2019 6/9 show-tiling help追加 2019 6/12 dot plot表追加 2019 8/5 インストール追記 2019 11/12 bioconda link追加 MUMmer3 シーケンスアライメントパッケージ[mummer4論文より ref.1]の2004年…

ロングリードのマッピングからSVを検出する Sniffles

2019 3/10 リンク追記 2019 7/11 インストール修正. -o pacbioは正しくは-x pacbioです。修正しました。 2020 7/13 ツイート追記、構成修正 2023/07/13 ツイート追記 SnifflesはロングリードのSV caller。Githubの説明によれば、主にPacBioのリード用に設計…

SVを考慮したロングリードのアライナー NGMLR

少なくとも50bpの欠失、重複、挿入、逆位および転座を含む構造変化(SV)は、ヒトゲノム(preprintより ref.1)の分岐塩基対(bp)の最大数を占める。 SVは、多型のバリエーション、癌(ref.3)、自閉症(ref.4)、またはアルツハイマー病(ref.5)などのいくつか…

samやfastqの単純分割

2020 3/20 コマンド修正 リードの境目を気にせず、とにかくfastqやsamを分割したいという時は、splitコマンドが使いやすい。fastqを認識して正しく分けるならseqkit split(紹介)を使う。 --非圧縮ファイルの分割-- 1000MB (1GB) ずつ分割し、gzip圧縮して…

様々なインフォマティクスツールを簡単に実行できるサイバー環境 CyVerse

2019 1/10 追記 Cyberinfrastructureは、直訳するとサイバー空間のインフラとなる。計算科学の分野では大規模な計算化学の課題に対する解決策を提供するもの、というような意味で使われている(wiki)。CyVerseはこのCyberinfrastructureを提供する、様々な…

indelコールの冗長性を調べる Vindel

ゲノムDNAの変異は、一塩基多型(SNP)、挿入および欠失(indels)、逆位、大規模な複製/欠失、および転座などの構造変異を含む。最近の大規模なヒトゲノムシークエンシングプロジェクト[論文より ref.1]で示されているように、これらのタイプの変異の中で、…

生物学的に同等な可能性があるindelのフィルタリングを行う UPS-indel

Indelは、DNA配列中の塩基の挿入または欠失を意味する。2番目に主要な変異であるindelsはゲノムおよびタンパク質の進化において重要な役割を果たす。シーケンシングエラー、リードのあいまいなアライメント、異なるツールによる同じバリアントの一貫性のな…

VCFのコンセンサスコーラー CGES

Whole-exome sequencing(WES)は、疾患に寄与する稀少変異を同定するための手頃なアプローチとなった。過去5年間で、PubMedのキーワード「exome sequencing」で索引付けされた論文の数は200倍に増加し、ヒトの遺伝学の明確な傾向を表している。生物学的メカ…

VCFのフィルタリングを行うGUIツール FMFilter

遺伝病研究における次世代技術の使用が普及している。 exomeおよび全ゲノムシーケンシングが利用可能になると、データの解析と解釈が必要になる。遺伝病の研究に使えるVarSifter [論文より ref.1]、GEMINI [ref.2]、GeneTalk [ref.3]、CanvasDB [ref.4]、Exo…

ターゲットに特異的なコア配列のプライマーを設計する RUCS

ポリメラーゼ連鎖反応(PCR)は、分子生物学における最も重要な科学的進歩の1つである。これは、DNAの特定の配列をコピーするための安価な技術である。 PCRは、医療、法医学、および研究のアプリケーションに不可欠なツールになっている。 PCRは、感染性病原…

ノーマライズしてVCF間の比較時のバイアスを減らす BAN

Variant Call Format(VCF)は、遺伝的変異および遺伝子型に関する情報を格納するためのタブ区切りのテキスト形式である(論文より Petr et al、2011)。 VCFファイル中の変異のレコードは、リファレンスDNA配列を試料DNAのシーケンスに変換する情報を記憶す…

Complete Genomicsのシーケンスリードをマッピングする sirfast

ハイスループットシークエンシング(HTS)技術は、[論文より ref.1]におけるペアエンド配列決定、および全ゲノムショットガンシーケンシング(WGS)[ref.2]の最初の使用以来、魅力的な速度で進化し続けている。 Roche / 454 [ref.3]、Illumina [ref.4]、ABI …

germlineとsomaticの変異を検出する SNVSniffer

次世代シークエンシング(NGS)に基づいて、単一ヌクレオチド変異(SNV)または挿入 - または欠失(indel)突然変異を呼び出すための様々なアプローチが開発されている。しかし、それらの大部分は、特定のタイプの突然変異に捧げられている。正常細胞におけ…

リファレンスフリーで家族内変異や病変組織の変異を調べ、数十以下まで候補を絞り込む DIAMUND

追記 4/16 エラーが大量に出たので内容を修正しました。 遺伝性疾患と癌の両方を含む、疾患の原因である突然変異を発見するためのゲノムシーケンシングの使用は、近年爆発的に増加している。全ゲノムシーケンスおよび全exomeシーケンスは、疾患表現型の原因…

RNA seqのシミュレータ polyester

RNA-seq実験は遺伝子発現を研究する手段としてますます普及が進んでいる。RNA-seqデータ(Oshlack et al、2010)の発現解析のための様々な統計的手法がある。 RNA-seqの統計的方法論の開発者は、ツールが正しく機能しているかどうかをテストする必要がある。…

低複雑度領域由来のリードを除去する RepeatSoaker

次世代シークエンシング(NGS)技術は、主に、DNA / RNAサンプルからの数百万回のリードの超並列シーケンシングに基づいており、リード長は増加している[論文より ref.1,2]。 NGSのコストは急速に低下し、その結果、転写を研究するためにマイクロアレイの使…