macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2020-10-01から1ヶ月間の記事一覧

10x genomicsのシングルセルRNA-seq解析パイプライン cellranger(version4について)

2020 10/31 説明を追加 2021 2/11 docker インストールにv5.01追加 Cell Rangerは、ChromiumのシングルセルRNA-seq出力を処理して、リードのアラインメント、フィーチャ-バーコードマトリックスの生成、クラスタリングと遺伝子発現解析を行う解析パイプライ…

配列比較結果を視覚化する

2020 11/2 誤字修正 先日紹介したneedleallやvsearchによるall versus allの配列比較のテキスト出力をもとに、ヒートマップで視覚化する。ここではggplot2パッケージを使う。 EMBOSS needleallによるall versus allの配列比較 1、配列の準備 all versus all…

All Versus Allの配列比較(sequence comparison)を行うEMBOSSの needleall

2020 10/29 vsearchのコマンド追記 needleall は入力された一連の配列を読み込み、それらをすべて 1 つ以上の配列と比較し、最適なグローバル配列のアラインメントをファイルに書き込む。Needleman-Wunschアライメントアルゴリズムを使用して、全長に沿った2…

タンパク質をコードする遺伝子配列の組換えイベントや正の選択下にある部位を見つける PoSeiDon

2020 10/27 テストデータ結果追記 選択圧力は、遺伝子の進化に継続的に影響を与え、多くの方法で研究することができる(Vittiら、2013)。例えば正の選択、または多様化する選択は、オルソロガスな遺伝子のアラインメントにおける非同義置換(dN)と同義置換…

高速かつ低メモリ使用量でlarge genomeのde gbrujin graphを構築する Cuttlefish

ゲノム解析において、リファレンスゲノムの大規模なコレクションからコンパクトなde Bruijnグラフを構築することは、ますます関心が高まっている課題である。例えば、compacted colored reference de Bruijn graphsは、ショートリードとロングリードのアライ…

柔軟な出力パラメータをもつ高速なORF予測ツール orfipy

2021 2/13 論文引用、help更新、実行例追記 転写物中のORFを検索することは、新たに配列決定されたゲノム中のコーディング領域をアノテーションする前の重要なステップであり、既知の遺伝子内の代替リーディングフレームを検索するための重要なステップであ…

ORFを予測するEMBOSSの getorf

2020 10/26 誤字修正 このプログラムは、1つ以上のヌクレオチド配列中のオープンリーディングフレーム(ORF)の配列を検索して出力する。ORFは、2つのSTOPコドンの間、またはSTARTコドンとSTOPコドンの間の指定された最小サイズの領域として定義することができ…

(植物)葉緑体ゲノム配列を自動で完全にアノテーションする CPGAVAS2

葉緑体ゲノムの完全長配列は、種の進化の歴史に関する豊富な情報を提供している。次世代シークエンシング技術の進展に伴い、葉緑体ゲノムの完全配列の数は飛躍的に増加すると予想されており、ゲノム配列をアノテーションするための強力な計算機ツールが急務…

EST配列をゲノムにアラインメントするEMBOSSの est2genome

est2genomeは、スプライスされていないゲノムDNA配列にスプライスされたヌクレオチド配列(ESTのcDNAまたはmRNA)のセットをアラインメントし、必要に応じて任意の長さのイントロンを挿入するプログラムである。イントロン境界は、デフォルトではスプライス…

de novo transcriptomeの系統解析と機能解析を行うwebツール TRAPID 2.0

2021 10/1 論文引用 ハイスループットシーケンシングの進歩は、RNA-Seqトランスクリプトームデータの膨大な増加をもたらした。しかし、特定の組織、状態、単細胞生物、微生物群集での迅速な遺伝子発現プロファイリングが期待されているが、新たな計算上の課…

(NCBI)AMR遺伝子を探索する AMRFinderPlus

2021 10/24 conda -> mamba, 論文引用 NCBIは、タンパク質アノテーションおよび/またはアセンブルされたヌクレオチド配列を用いて、AMR遺伝子、抵抗性関連の変異、および他のクラスの遺伝子を同定するツールであるAMRFinderPlusを開発した。AMRFinderPlusは…

(TCGA)インタラクティブな遺伝子発現解析のためのWebアプリケーション Phantasus

2020 10/25 追記 Phantasusは、視覚的でインタラクティブな遺伝子発現解析のためのウェブアプリケーションである。Phantasusは、ヒートマップの可視化と解析のためのWebベースのソフトウェアMorpheusをベースにしており、OpenCPU APIを介してR環境に統合され…

関連論文をネットワークに視覚化する CONNECTED PAPERS

Connected papersは、研究者や応用科学者が自分の研究分野に関連する論文を見つけて探索するのに役立つ、ユニークで視覚的なツールである。 論文のグラフは、その類似性に応じて配置される。つまり、直接引用し合っていない論文でも、強くつながりがあると、…

ロングリードのアラインメントツール minialign

Minialignは、PacBioやNanoporeのロングリード用に設計された、高速で中程度の精度のヌクレオチド配列アライメントツールである。ミニマップオーバーラッパーのミニマイザーベースのインデックス、配列ベースのシードチェイニング、SIMD-パラレルSmith-Water…

Search-Sifter

タンパク質ファミリーデータベースは、タンパク質の機能を解剖しようとしている生物学者にとって重要なツールである。タンパク質ファミリーデータベースを運用する際には、何千もの既存のエントリと新しいファミリーの可能性を比較することが重要な作業とな…

VCFやBCF を扱う bcftools

2020 11/17 追記 2021 4/244 追記、5/24 docker imageのリンク追加、6/2 callコマンド追記、9/17 論文引用、10/1 追記 2023/07/24 mpileup修正 bcftoolsは変異をコールしてバリアントコールフォーマットのVCFを出力したり、VCFやBCF(VCFのバイナリーフォー…

タブ区切りゲノムポジションファイルにindexをつけて素早く問い合わせる tabix

2024/02/04追記、02/06追記 コマンドラインやゲノムビューアで局所的なゲノム特徴を調べる場合、指定された領域に重なる特徴を検索するインターバルクエリを頻繁に実行する必要がある。インターバルクエリを数回しか行わない場合には、データファイル全体を…

vcf/bcfから必要なフィールドだけ問い合わせる bcftoolsのqueryコマンド

2020 10/14 タイトル変更 manual http://samtools.github.io/bcftools/bcftools.html BCFtools HowTo Extracting information from VCFs bcftoolsのインストール Github #bioconda (link)conda install -c bioconda -y bcftools > bcftools # bcftools Progr…

ペアでないデータの定量的な比較を行うwebサービス PlotsOfDifferences

異なる条件で得られたデータを定量的に比較することは、実験科学の重要な側面である。定量的比較のために最も広く使われている統計量はp値である。しかし、p値にはいくつかの欠点がある。定量的比較に関連する最も顕著な欠点は、p値が違いの大きさを伝えられ…

発現領域を視覚化する vizER

ヒトの遺伝子アノテーションが不完全なままであることを示唆する証拠が増えてきているが、それが異なる組織にどのように影響し、異なる疾患の理解にどのような影響を与えるかは不明である。ここでは、41のヒト組織のGenotype-issue Expression RNAシーケンス…

(プロテイン)レシプロカルベストヒットを抽出する getRBH.pl

タンパク質配列の迅速な比較のためのソフトウェアの著者は、そのソフトウェアの速度を評価し、その結果をそのタスクのための最も一般的なソフトウェアと比較しているが、より特殊な用途、例えば、Reciprocal Best Hit(RBH)としてのオルソログの発見のよう…

一般的なラボのデータ分析を高速化するshinyアプリケーション FaDA

2022/04/26 追記 RプログラミングShinyパッケージを用いて開発されたWebベースのデータ解析・可視化ツールが研究者に提案されることが増えている。これらのツールは、様々な視点からデータを解析したり、インタラクティブな可視化を提供したりするのに便利で…

マルチプルシーケンスアラインメント(MSA)のクリーニングツール CIAlign

2022/03/15 論文引用 生物学の分野では、生物学的な特徴や関係性を調べるための多くの調査の基礎となっているのが、複数の配列のアラインメント(MSA)である。これらのアラインメントは、多くのバイオインフォマティクス解析の中心となっている。しかし、MS…

ONTのリードを量子化(離散化)して扱う QAlign

2020 10/16 論文引用 DNA/RNA配列のリードを互いに、あるいはリファレンスゲノム/トランスクリプトームに効率的かつ正確にアラインメントすることは、ゲノム解析における重要な問題である。ナノポアシーケンシングは主要なシーケンシング技術として登場し、…

真菌の遺伝子予測を行う CodingQuarry

全ゲノムシークエンスは、多くの生物の遺伝子コンテンツの調査を可能にし、遺伝子発現、プロテオミクス、エピジェネティクスのさらなる研究の基礎を形成している。新規ゲノムを構築した後、遺伝子のアノテーションを行うことが、生物の遺伝子内容を解析する…

リピートをマスクする RepeatMasker

2021 3/26 コマンド追加 2022/12更新 2023/01/08, 01/9 追記 RepeatMasker は、DNA 配列をスクリーニングして、散在したリピート配列や、複雑性の低い DNA 配列を検出するプログラムである。プログラムの出力は、クエリ配列に存在するリピートの詳細なアノテ…

真菌を中心とした真核生物ゲノムのアノテーションパイプライン funannotate

2021/11/17 dockerについて追記 2023/08/08 引用修正 Funannotateはゲノム予測、アノテーション、比較のためのソフトウェアパッケージである。元々は真菌ゲノム(真核生物の中では小さいもので30 Mb程度のゲノム)のアノテーション用に書かれていたが、より…

核酸配列をアミノ酸配列に翻訳する gotranseq

gotranseqは核酸配列を対応するペプチド配列に翻訳する。EMBOSS transeqと似ているが、goで書かれている。 EMBOSS transeq は素晴らしいツールだが、':' のような文字が含まれている場合はシーケンス ID を黙って切り捨てたり、'|' のような文字が含まれてい…

アノテーションパイプライン PASA

2020 10/4 コマンドの間違い修正 2020 10/5 アップデートのコマンド修正 2023/01/05, 01/12追記 アップデートのコマンド追記 ゲノム配列に対する発現配列データのスプライスアラインメントは、真核生物ゲノムにおける遺伝子の包括的なアノテーションにおいて…

大規模なウイルスゲノムデータのマルチプルシーケンスアラインメントを行う ViralMSA

2023/04 ツイート追記 分子疫学において、感染クラスターの同定は、典型的にはウイルスゲノム配列データのアラインメントを必要とする。しかし、既存の複数配列のアラインメント手法では、配列数に対してスケールが小さく、その結果、ウイルスの感染クラスタ…