macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021-08-01から1ヶ月間の記事一覧

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

2022/01/13 論文引用 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

高忠実度のHi-Cデータをシミュレートする FreeHi-C

ハイスループットのクロマチンコンフォメーション(Hi-C)データをシミュレーションできることは、Hi-Cデータ解析手法のベンチマークに不可欠である。この論文では、FreeHi-Cと名付けられたノンパラメトリックな手法を用いて、相互作用するゲノム断片から得…

Nanopolishのドラフトゲノムの研磨チュートリアルを確認する

Nanopolishは解析の流れを説明したチュートリアルを公開している。現在レポジトリで公開されているのは、ドラフトゲノムのpolishのワークフロー、メチル化コールのワークフロー、ナノポア・ネイティブRNAシーケンシングで得られたリードからポリAテイルの長…

mmquant

現在、RNA-Seqは日常的に使用されており、遺伝子の転写に関する正確な情報を得ることができる。しかし、この方法では、重複した遺伝子の発現を正確に推定することができない。これまでに、いくつかの方法(重複した遺伝子を削除する、リードを一様に分配する…

Scaffold情報を用いてメタゲノムビンの連続性と質の向上を行う Binnacle

ハイスループットシーケンシングは微生物学の分野に革命をもたらしたが、メタゲノムショットガンシーケンシングデータから生物の完全なゲノムを再構築することは依然として困難である。回収されたゲノムは、生物の存在量の不均一性、ゲノム内およびゲノム間…

ONTのfast5形式の公開データを探してみる

NCBIはオックスフォード・ナノポアの.fast5ファイルのサブミットを受け付けていて、マニュアルによると(NCBI SRA File format guide)、fast5ファイルのセット全体をtar.gzファイルで受け付けるとある。 NCBI SRAで"fast5 ONT "と検索したところ50件ヒット…

SAMファイルのFLAG値と属性の関係を確認するHP

2021 8/24 誤字修正 SAMファイルのFLAGフィールドは、10進数で0から65535 (2^16-1) の間の値を取る。bitwise FLAG になっていて、2の累乗(2^n)でアラインメントの状態(プロパティ、属性)が定義できる。複数の属性を定義できるようになっている。各桁の…

samファイルのクリッピングされたアラインメントを除く samclip

Githubより ほとんどのショートリードアライナーは、参照ゲノムに対するリードのローカルアライメントを行う。例として、bwa mem、minimap2、bowtie2などがある(--end-to-endモードの場合を除く)。つまり、リードの両端がベストアライメントに含まれていな…

病原性細菌の比較トランスクリプトームおよび共発現データベース bacteria.guru

細菌は単細胞の原核生物であり、相互作用から寄生まで様々な共生関係を築くことができる。細菌の病原性に対抗するためには、遺伝子の機能と制御に関する理解を深めることが必要であり、それが新しい抗菌薬の開発につながる。 Gene expressionは遺伝子の機能…

(ヒトゲノム)超高速なk-mer問い合わせwebサービス KmerKeys

2022/05/21 論文引用 K-merは、ゲノム配列解析に使用される短いDNA配列である。K-merを使ったアプリケーションには、ゲノムアセンブリやアラインメントがある。しかし、バイオインフォマティクスの分野でk-merを広く利用するには、ゲノム配列データの巨大化…

原核生物のトランスポゾンデータベースとトランスポゾン解析のためのウェブポータル TnCentral

原核生物のトランスポゾンエレメント(TE)のウェブリソースであるTnCentral(https://tncentral.proteininformationresource.org/)の構造と組織について説明する。TnCentralには、Tn3、Tn7、Tn402、Tn554ファミリーのトランスポゾン、複合トランスポゾン、…

公開メタゲノムに対する高速なアミノ酸配列の類似性検索サービス PZLAST

公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以…

メタゲノムコンティグの分類を行うユーザーフレンドリーなツール SprayNPray

培養した微生物のisolatesや真核生物の個体のショットガンシーケンス(全ゲノムシーケンス)や微生物群集のショットガンシーケンス(メタゲノミクス)は、生物学において一般的になってきている。シークエンスされたサンプルには、複数の生物種が含まれてい…

全ゲノムバイサルファイトシーケンスデータのためのエンドツーエンド解析パイプライン wg-blimp

DNAシークエンスが開発されて以来、遺伝的変異に関する多くの研究が行われてきたが、エピジェネティックなレベルでの広範な研究は最近になって登場した。生体内のほとんどの細胞は、そのゲノム配列が同一であるが、組織や細胞の種類によっては、それぞれのア…

MethylDackel

MethylDackel(以前の名前はPileOMethで、これはMETHylationメトリクスを抽出するためにPILEupを使用していたための仮の名前だった)は、何らかの形でBS-seqのアラインメントを含む、座標順にソートされ、インデックスが付けられたBAMまたはCRAMファイルを処…

トランスポゾン挿入部位を正確に同定する ITIS

転移因子は、ゲノムの重要な部分を構成し、適応メカニズムに不可欠である。表現型の変化に関連するトランスポジション現象は、自然に発生するか、挿入型の突然変異体集団で誘発される。トランスポゾンを用いた変異誘発では、複数のランダムな挿入が起こり、…

BUSCO v5

2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新, 7/3 追記, 7/20 追記 2024/03/07 追記, 3/16 BUSCOv5.7.0について追記 ゲノムデータやメタゲノムデータの品質を評価する方法は、ゲノムアセンブリを助け、その後の解析結…

バイサルファイト処理されたリードのマッピングを行う bwa-meth

バイサルフィット処理された配列をアライメントする新しいツールbwa-mesを紹介し、既存のアライナーと比較する。結果、クオリティトリミングを行わなくても、高速で正確なアライメントが可能であり。下流のツールですぐに使用できることを示す。ターゲットシ…

真菌ゲノムのアノテーションパイプライン FunGAP

ゲノム解析が成功するかどうかは遺伝子予測の質にかかっている。fungalゲノムの解読とアセンブルは容易になったが、そのアノテーション手順はまだ標準化されていない。FunGAP は、真菌ゲノムアセンブリ中のタンパク質をコードする遺伝子を予測するプログラム…

ウィルスゲノムの株を識別したde novoアセンブリを行う Haploflow

ウィルス感染症では、共同感染や宿主内での進化により、複数の関連するウィルス株が存在することが多い。HaploflowはdeBruijnグラフをベースにしたアセンブラで、新しいフローアルゴリズムを用いて混合されたシークエンシングサンプルからウイルスの株レベル…

複雑なデータをヒートマップで可視化するためのRパッケージ Superheat

2021 08/11 データのロード追記 テクノロジーの進歩により、科学分野をはじめとする膨大な量のデータを収集することが可能になった。従来のデータ可視化ツールは、高次元環境ではうまく機能しないため、このような膨大なデータセットから有用な情報を抽出す…

オルガネラゲノムの遺伝子の多重整列を自動で構築するパイプライン HomBlocks

オルガネラの系統解析を行うためには、あらかじめアラインメントされた単一遺伝子データセットを連結したマルチ遺伝子アラインメントマトリクスを正確に構築する必要がある。しかし、数十から数百の相同遺伝子からなる高品質なマルチ遺伝子アラインメントを…

HTSデータを扱う様々なツールをGUIインターフェースで統合した TBtools

ハイスループットシーケンス(HTS)データからの情報マイニング用にさまざまなソフトウェアまたはパイプラインが開発されているが、それらのほとんどは、ほとんどの生物学者が馴染みのないプログラミングおよびコマンドライン環境に依存している。 ユーザー…

ヒト腸内細菌のゲノムコレクション HumGut

2021/8/17 論文引用 2022/02/17 krona追記 2022/02/24 krona関係のコマンド修正 2023/12/01 説明追加 ヒトの腸内細菌叢の特徴を明らかにするために、微生物の分離とDNA配列の決定の両方が行われてきた。また,最新のバイオインフォマティクスツールを用いて…

コピーナンバーバリアント(CNV)のシミュレータ SECNVs

コピーナンバーバリアントは、表現型の変化やヒトの病気に重要な役割を果たすゲノムの複製や欠失である。全ゲノム配列や全エクソーム配列のデータを用いて、コピー数の変異を検出するソフトウェアが数多く開発されている。しかし、これらのアプリケーション…

MSIsensor

マイクロサテライト不安定性(MSI)は、より大きなゲノム不安定性の重要な指標であり、リンチ症候群をはじめとする多くの遺伝病と関連している。また、MSIの状態は、大腸がんや子宮内膜がんなどの複数のがん種において、良好な生存率を示す独立した予後因子…

ロングリードアセンブリのコンティグからクロモソームへの改善を自動で行う ILRA

近年のロングリードシークエンシング技術の進歩は、大規模なコンソーシアムが地球上のすべての真核生物の配列を決定することを可能にするだけでなく、多くの研究室が関心のある種のゲノム配列を決定することも可能にしている。しかし、コンティグの数は染色…

真核生物ゲノムに存在するLTRレトロトランスポゾンをde novoで発見してアノテーションを付ける LTRpred

LTRレトロトランスポゾンは、2つの類似したロングターミナルリピート(LTR)を含む可動性遺伝因子の一種である。現在、LTRレトロトランスポゾンは、主に従来の相同性検索の手法で真核生物のゲノムにアノテーションされている。そのため、既知の因子のアノテ…

メタゲノムのリードカバレッジ とrelative abundanceの計算ツール coverM

2021 8/5追記、9/6 追記、10/8 contigコマンド修正 2022/05/09 help修正、06/03 コマンド 2023/08/10 追記 2024/04/12 構成を整頓 Githubより CoverMは、メタゲノミクスアプリケーションに特化した、設定可能で使いやすく、高速なDNAリードカバレッジおよび…