macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018-01-01から1年間の記事一覧

インタラクティブなRNA seq解析webアプリケーション iDEP

2019 5/23 tweet追記、9/26 動画追加、11/30 ツイート追記、12/22 統合TVリンク追加 2020 2/2 8章補足資料リンク追加、12/15 ツイート追加 2024/04/04 論文追加引用 RNAシークエンシング(RNA-Seq)[1]は、ゲノムワイドな発現解析のための日常的な技術とな…

複数フローセル比較にも対応したONTの分析ツール MinIONQC

Oxford Nanopore Technologies(ONT)の小型で携帯可能な機器MinIONは、DNAシークエンシングに革命をもたらした。それはユーザーがサンプルから数時間でシーケンスまで進めることを可能にし、また非常に長いDNA分子をシーケンスすることができ、そして各フロ…

PCR duplicationにタグをつけたりエラーを取り除く gencore

2018/12/22 タイトル修正 HIgh depthの次世代シークエンス(NGS)は、癌の精密な診断と治療に広く使用されている。このようなディープシーケンシングデータから、体細胞突然変異を検出して、パーソラナイズされた標的療法または免疫療法のガイドにすることが…

BED、VCF、GTFをユーザー定義の方法でソートする gsort

gsortはゲノムファイルをソートするためのツール。たとえば、何らかの理由でVCFを並べ替えて、X、Y、2,1,3、などの順序で並べ替えることができる。他のソートツールでは不可能だったGATK order(1 ... X、Y、MT)に一致するようなソートもできる。ソートは、…

seqkitに新しく追加されたコマンドを確認する

2019 8/7 誤字修正 2023/01/20 translate help更新 seqkitを以前ブログで紹介した時は0..6.0でしたが、1年半近く経ち、2018年12月20日現在ではバージョンが0.9.4まで上がっています。ありがたいことに、bug fixだけでなく、新しいコマンドが複数追加されて…

UMIタグつきraw シーケンシングリードをクラスタリングする calib

次世代シーケンシングにより、シーケンシングエラーの処理を含む多くの課題が発生する大規模なゲノムデータセットが利用可能になった。これは特にガンゲノミクスに関連する。循環腫瘍DNAからの低い対立遺伝子頻度変動を検出するために使用される。ユニークな…

SPAdesとUnicyclerでlarge k-merを使う part2 (SPAdesのテスト)

2019 12/8 誤字修正 127以上のk-merを使うために、SPAdesとUnicyclerをビルドし直した(リンク)。今回は、実際に127以上のk-mer値でアセンブリを行い、アセンブリ性能がどのように変化するか簡単にテストした結果を書く。 Real dataの傾向が知りたいので、G…

リードや他のアセンブリから得られた情報を組み込んでゲノムアセンブリ精度を向上させる NucMerge

過去10年にわたるシーケンシング技術の大きな進歩にもかかわらず、第2世代シーケンシングリードを用いたゲノムアセンブリは依然として複雑な問題のままである。これは主に、ゲノムの構造の繰り返しと、大量のデータ、短いリード長及びフラグメント長、不均一…

ロングリードの分析とフィルタリングを行う pauvre

2020 2/16 tweet追記、タイトル修正 pauvreはdarrin t schultzさんがGithubに公開されている第三世代ロングリード分析用のユーティリティツール。低クオリティなリードのフィルタリング機能も備えている。 I just updated the pauvre package to make some f…

lambda phageコントロールをONTなどのfastqから除く NanoLyse

支配的なsynthesis technology によるシーケンシングは、固定リード長の(50-300bp)の高精度(エラー率<1%)なシーケンシングとして特徴付けられる(Goodwin et al、2016)。対照的に、Oxford Nanopore Technologies(ONT)およびPacific Biosciencesのロ…

UMT tagを利用してPCR duplicationを除く Connor

ディープシークエンスのNGSデータを解析する場合、PCRエラーとまれなバリアントを区別することが困難な場合がある。その結果、いくつかのバリアントが見逃され、一部不正確なバリアント頻度で同定されることがある。これに対処するために、研究者はサンプル…

FASTQの圧縮/解凍を行う Spring

過去数年間に生産されたゲノムデータの量は、主に高スループットシーケンシング(HTS)技術の向上とゲノムのシーケンシングコストの削減によって大幅に増加した。ヒトに対する単一のゲノムシーケンシング実験は、典型的には数億のショートリード(長さ100〜1…

中間サイズのSVを検出する CLEVER

The International HapMap Consortium (2005) とThe 1000 Genomes Project Consortium (2010) は、世界的に協調した取り組みにより、ヒトゲノムのより大きなリアレンジメントを含む全領域の変異のバリエーションに関する最初の体系的な見解を提供した。驚く…

SPAdesとUnicyclerでlarge k-merを使えるようにビルドし直す part1

2020 5/16 ダウンロードリンク更新 これまではk-merの値を増やしても、k-merのピークがノイズの中に埋もれてしまうので意味がないと思いこんでいたが、SKESA(紹介)は、ペアエンドリードをマージし、リード長以上の長いk-merも使ってde brujin gaphを構築し…

nrなどのNCBIデータベースをダウンロードする ncbi-blast-dbs

2018 12/10 タイトル訂正 2020 9/7追記2020 9/11 わかりにくい説明を修正、9/11 簡単な並列処理例追記、9/12.9/15 taxonkit コマンド修正, わかりにくい部分を修正、10/3 taxonkitのコマンドを修正、10/10 コマンド微修正、10/28 誤字修正 2022 1/6 例のパラ…

関連するメタゲノムから集団ゲノムを復元するための自動化ツール groopM

微生物群集の機能と進化を理解する能力は、特定の生態系のほとんどの構成種を培養できないことで妨げられてきた(論文より Hugenholtz、Goebel&Pace、1998)。ショットガンシーケンシングの環境DNAへの応用であるMetagenomicsは、この培養のボトルネックを…

SVイベントを統合し、より複雑なSVを予測する CLOVE

Structural variants(SV)は、少なくとも2箇所での二本鎖DNA切断とそれに続くDNA修復によって引き起こされるゲノムの再構成である。典型的には、SVという用語は、サイズが1kbを超える事象に対して使用される[論文より ref.1 この論文での定義]。 SVには、大…

NCBI FTPサーバからゲノム配列をダウンロードする ncbi-genome-download

2019 11/8 コマンドのミス修正("Escherichia coli" => "Escherichia") 2019 12/19 関連ツールリンク追加 タイトルの通りの機能をもつスクリプト。 インストール mac os10.13のminiconda2-4.0.5環境でテストした。 依存 本体 GIthub #anaconda環境ならconda…

ロングリードのアセンブリツール Flye

2019 version2.4.1のヘルプに更新、論文追記、テストランのコマンドミス修正、リンク追加、コマンド修正、補足、リンク追加、You tube動画追加 2020 ツイート追加、help更新、例追記、コメント追記、ツイート追記 2021 5/8 動画リンク追加、6/16 subassembli…

アセンブリの構造的誤りが疑われる部位をコールする NucBreak

2020 3/3 論文引用 ゲノムシーケンシング技術全体の進歩により、近年ゲノム配列が決定された生物数が大幅に増加している。これは、広範な生物の比較ゲノム解析を行う機会を提供している。分析結果は、使用されたゲノムアセンブリの品質に大きく依存する。ア…

Linked readを使ってクロモソームスケールのアセンブリを行う ARKS

ARCSより 10×Genomics(10×G、Pleasanton、CA)のChromiumシークエンシングライブラリー調製プロトコルは、Illuminaシーケンシング(San Diego、CA)ベースで長いDNA断片上にショートリードとバーコード情報を提供しローカライズさせる。したがって、高スル…

HINGEアセンブラ

ゲノムアセンブリは数十年にわたり計算生物学の中心的課題であったが、最近のロングリードシーケンス技術の出現で、完全なアセンブリを自動入手するという目標を達成している。しかし、リピートを確実に解決するために、エラーが頻繁に発生するリードに存在…

Linked readsを使ってミスアセンブリを検出する tigmint

ショートリード・シーケンシング・データのアセンブリは、シーケンシング・ライブラリのフラグメント・サイズよりも大きいリピート配列によって容易に混乱させられる。リピートのサイズがライブラリのフラグメントサイズを超えると、コンティグは最善のケー…

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

2018 12/3 図差し替え 2019 6/18 condaインストール追記 2019 6/21 コマンド追記 2019 10/23引用追記 2020 1/7 インストール追記 2020 12/9 my docker imageのラン手順修正 RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC…

fastaのフォーマットを変換したり、指定サイズを取り出す seqmajic

Documentation https://seqmagick.readthedocs.io/en/latest/ 対応フォーマット 拡張子によってフォーマットが自動認識される。 インストール mac os10.14の miniconda3-5.0環境でテストした。 依存 Python >= 3.4 biopython >= 1.70 本体 Github #Anaconda…

ペアエンドfastqをマージする flash2

DNAシーケンシング技術の急速な低下に伴い、デノボ全ゲノムシーケンシング(WGS)プロジェクトは新しいゲノムについて非常に深いカバレッジを生み出している。しかし、これらの技術による高いカバレッジとゲノムアセンブリアルゴリズム(Gnerre et al、2011;…

ゲノムスキミングサンプルから種を同定する Skmer

環境サンプルの分類学的多様性を迅速かつ安価に研究する能力は、急速な気候変動と生物多様性の変化が起きているこの時代において非常に重要である。現在選択されている分子技術は、(meta)Barcoding[論文より ref.1- 3]である。伝統的な(meta)Barcodingは…

アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行う ClipAndMerge

ClipAndMergeはAlexander PeltzerさんがGithubで公開されている、アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行ってくれるツール。ワンライナーでマージしたfastq出力を得ることができる。 インストール mac os10.14のminico…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

アセンブリのグラフを可視化し、アセンブリの評価・分析を助ける SGTK

2018 11/27 誤字修正 Scaffoldingはすべてのゲノムアセンブリパイプラインの重要なステップである。scaffoldingにより、メイトペアライブラリやロングリードなどのさまざまなタイプのリンケージ情報を使用してコンティグをより長い配列にアラインできる。 こ…