macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Bioinformatics

原核生物の遺伝子配列をGenBankファイルから簡単に検索するためのウェブツール BAGET 2.0

細菌ゲノムや古細菌ゲノムの完全シークエンスから単一の遺伝子配列とコンテキストを検索することは、ウェットベンチ生物学者にとっては気が遠くなるような作業である。既存のウェブベースのゲノムブラウザは、日常的に使用するには複雑すぎるか、原核生物ゲ…

ゲノム中のISエレメントを探す ISEScan

ISEScanは、ゲノム中のIS(Insertion Sequence)エレメントを同定するためのPythonパイプラインである。完全なISエレメントを報告するか、完全なISエレメントと部分的なISエレメントの両方を報告するかのオプションがある。メテゲノムアセンブリに含まれるISエ…

効率的なゲノムファイル(FASTQ、SAM/BAM/CRAM、VCF、GVF、FASTA、PHYLIP、23andMe)の圧縮器 Genozip

ゲノムデータのための汎用的で機能が充実した圧縮ソフトウェアであるGenozipを紹介する。Genozipは、汎用性(一般的なゲノムファイル形式をすべてサポート)、高圧縮率、高速性、機能性、拡張性の5つのコア機能を提供することで、ゲノム圧縮のための汎用ソフ…

RNAseqのDEGsを視覚化する DrEdGE

Differential Expression Gene Explorer(DrEdGE)はウェブベースのツールで、インタラクティブなオンラインのデータビジュアライゼーションを簡単に作成できるようにgenomicists(*1)を案内する。 DrEdGEの機能を、公開されているデータセット(ヒトの神経…

TPMCalculator

次世代シークエンシング技術は、我々が生物系を分析する方法を変え、RNAシークエンシング(RNA-seq)が標準的な手順になった。ほとんどのRNA-seq実験はサンプル間の転写産物量を測定および比較を行う。これはさまざまな実験条件下で遺伝子発現プロファイルを…

DNA・RNA・タンパク質の物理化学的特徴を調べるためのGUIアプリケーション VisFeature

2021 2/2 タイトル変更 遺伝子やタンパク質の一次配列から機能的属性を予測するバイオインフォマティクスアルゴリズムの開発には多くの努力がなされてきた。その際の課題の一つとして、ヒューリスティック手法や反復法によって選択された統計的特徴を直感的…

シークエンシングエラーの多いロングリードからLong Tandem Repeatsを探す mTR

1000 ntを超える長いタンデムリピート拡張は疾患との関連性が示唆されているが、シークエンシンリード長が短すぎるため、ほとんどの場合、個々のヒトゲノムでは未解明のままである。しかし、新しいロングリードシークエンシング技術は、このようなリピート拡…

アダプター配列情報なしでアダプタートリミングを行う EARRINGS

次世代シークエンシング(NGS)に基づくクロスサンプル比較や大規模メタアナリシスでは、リード中の汚染アダプターフラグメントの除去(すなわちアダプタートリミング)を含む、複製可能で普遍的なデータの前処理が必要となる。最新のアダプタートリマーは、…

オーバーラップグラフに基づいたde novoゲノムアセンブラ ALGA

2021 1/22 誤字修正 オーバーラップグラフ法に基づいたde novoゲノムアセンブリの手法は非常に少ない。いわゆるde Bruijnグラフアプローチよりも正確な結果が得られると考えられているが、より多くの時間とより多くのメモリを必要とする。オーバーラップグラ…

(バクテリア)共存在する遺伝子を探索するwebサービス PhyloCorrelate

系統プロファイリング」として知られるゲノム間のco-occurring genesを統計的に検出する方法は、遺伝子間の機能的関連を推測するための強力なバイオインフォマティクス技術である。系統樹データベースのサイズと複雑さ、系統樹構造の考慮の難しさ、ゲノムア…

バリアント領域のリードマッピングを視覚化する BamSnap

バリアント検出アルゴリズムの向上にもかかわらず、ゲノム解析における正確なバリアントの同定には、リードレベルのデータを視覚的に確認することが重要な課題となっている。著者らは、グラフィックスライブラリとBAMインデックスを利用した効率的なBAMファ…

Linked readを使ってスキャフォールディングを行う ARBitR

ゲノムアセンブリの連続性は、構造的なリアレンジメント、遺伝子の順序、発散したゲノム間のシンテニー、遺伝子バリアント間のリンケージ、ゲノムの反復領域などを解析するために重要である。アセンブリの連続性はスキャフォールディングによって改善するこ…

ヒトとマウスの ロングノンコーディングRNAのアノテーションをつける lncFunTK

ロングノンコーディングRNA(lncRNA)とは、200塩基より長いノンコーディング転写物を指す。現在までに、約58,000のlncRNAが様々な細胞型・組織に集積されているが、そのうち79%が新規性の高いものであり、その生物学的機能は未だ解明されておらず(Iyer et a…

パンゲノム解析でゲノミックアイランドやHGT(コア遺伝子ではない領域)を探索するPPanGGOLiNのpanRGPコマンド

Horizontal gene transfer(HGT)は原核生物のゲノムの変動性の主な原因である。ゲノム可塑性領域(Region of genome plasticity: RGP)とは、非常に可変性の高いゲノム領域に位置する遺伝子の集合のことである。その多くはHGTから発生し、 genomic islands…

Deep learningによって高速かつ精度の高いオーソロガスタンパク質のアサインメントを行う DeepNOG

タンパク質オロソログ群データベースは、進化解析、機能アノテーション、または系統を超えた代謝パスウェイのモデリングのための強力なツールである。また、配列は通常、プロファイル隠れマルコフモデルなどのアライメントベースの手法でオーソロガスなグル…

prokaryotesの自動化されたRNA seq解析パイプライン prokseq

2021 1/8 誤字修正 大規模な並列シーケンシングの進歩とシーケンシングコストの劇的な削減により、RNAのディープシーケンシング(RNA-Seq)はRNA転写産物の同定と定量化のための主要なツールとなった。今日、RNA-Seqは、創薬標的の同定、新規遺伝子制御機構…

転写産物レベルで正確なリードカウントを行う RSEM

2021 1/9 タイトル修正 2021 1/15 コマンドと説明追記 RNA-Seqは転写産物の量を測定する方法に革命を起こしている。RNA-Seqデータからのトランスクリプトの定量における重要な課題は、複数の遺伝子やアイソフォームにマップされたリードの取り扱いである。こ…

ゲノムアセンブリをリファレンスゲノムと比較してSVをコールする SVIM-asm

ゲノム変異の主要なクラスの一つとして、構造バリアント(SV)は50 bps以上の大きさのゲノムリアレンジメントの多様な範囲から構成されている。ヒトの平均的なゲノムには、シングルヌクレオチドバリアント(Single Nucleotide Variants: SNV)やsmall indel…

真核生物ゲノムのアノテーションを行うwebサービス MOSGA

近年のシーケンシング技術の進歩により、大規模な真核生物ゲノムであっても高品質のアセンブリを生成することは、多くの生物学者にとって日常的な作業となっている。しかし、このようなアセンブリのアノテーションは、関心のある生物の生物学的性質を解明す…

infernal

infernalは、入力として与えられた構造的にアノテーションされた複数の配列アラインメントから、共分散モデル(CM)と呼ばれるRNAファミリーの配列と二次構造の確率的プロファイルを構築する。infernalは、共分散モデルを使用して、配列データベース内の新し…

Viral quasispeciesのアセンブリを行う virus-vg

ウイルスは、遺伝的に関連のある突然変異株のコレクションであるquasispeciesとして宿主に寄生する。Viral quasispeciesのアセンブリは、リードデータから株固有のハプロタイプを再構築することであり、株間の相対的な存在量を予測することは、治療に関連し…

ターゲットの菌株の種類と豊富さを調べる mixtureS

環境試料中の細菌株を研究することは不可欠である。既存の方法やツールは、既知の菌株や変異株に依存していることが多く、個々のサンプルに対応できない、信頼性が低い、使い勝手が悪いなどの問題がある。そのため、より正確に菌株を同定できる、より使いや…

遺伝子クラスターを比較してインタラクティブな図で視覚化する clinker(clustermap.js含む)

2020 11/8 誤字修正 2020 11/10 preprint引用追加 2020 12/15 追記 2021 1/19 論文引用 生物学的パスウェイに関与する遺伝子は、多くの場合、遺伝子クラスターに集まっており、それらを比較することで、その機能や進化の歴史についての貴重な洞察を得ること…

複雑な構造多型の分析と視覚化を行う Svpluscnv

ほとんどの腫瘍種において体細胞構造変化(SV)が広く普及しているにもかかわらず、その分子的意味合いについての理解が不十分な場合が多い。SVはその大きさと複雑さが非常に不均一であり、その病原性の役割の解釈を妨げている。ガンの体細胞構造を完全に特…

データベースのFASTAファイルをBLASTでのアラインメントに適した小さな断片に分割する AlignBucket

次世代シークエンシング時代では、増え続ける生物学的配列やそのバリエーションを正確にアノテーションするための信頼性の高い、高速かつ効率的なアプローチが求められている。類似性検索に基づくアノテーションのtransferは、標準的なアプローチである。全…

タンパク質をコードする遺伝子配列の組換えイベントや正の選択下にある部位を見つける PoSeiDon

2020 10/27 テストデータ結果追記 選択圧力は、遺伝子の進化に継続的に影響を与え、多くの方法で研究することができる(Vittiら、2013)。例えば正の選択、または多様化する選択は、オルソロガスな遺伝子のアラインメントにおける非同義置換(dN)と同義置換…

柔軟な出力パラメータをもつ高速なORF予測ツール orfipy

2021 2/13 論文引用、help更新、実行例追記 転写物中のORFを検索することは、新たに配列決定されたゲノム中のコーディング領域をアノテーションする前の重要なステップであり、既知の遺伝子内の代替リーディングフレームを検索するための重要なステップであ…

タブ区切りゲノムポジションファイルにindexをつけて素早く問い合わせる tabix

コマンドラインやゲノムビューアで局所的なゲノム特徴を調べる場合、指定された領域に重なる特徴を検索するインターバルクエリを頻繁に実行する必要がある。インターバルクエリを数回しか行わない場合には、データファイル全体を読み込むこともできるし、イ…

ONTのリードを量子化(離散化)して扱う QAlign

2020 10/16 論文引用 DNA/RNA配列のリードを互いに、あるいはリファレンスゲノム/トランスクリプトームに効率的かつ正確にアラインメントすることは、ゲノム解析における重要な問題である。ナノポアシーケンシングは主要なシーケンシング技術として登場し、…

大規模なウイルスゲノムデータのマルチプルシーケンスアラインメントを行う ViralMSA

分子疫学において、感染クラスターの同定は、典型的にはウイルスゲノム配列データのアラインメントを必要とする。しかし、既存の複数配列のアラインメント手法では、配列数に対してスケールが小さく、その結果、ウイルスの感染クラスターを特定するためには…