macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GTF

(RNA seqの下流解析のための)深層学習ベースのスプライシングジャンクション予測ツール Splam

2023/08/18更新、タイトル変更 イントロンを除去するためにメッセンジャーRNAをスプライシングするプロセスは、遺伝子や遺伝子バリアントを作り出す上で中心的な役割を果たしている。ここでは、深層残差畳み込みニューラルネットワークに基づく、DNA中のスプ…

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

遺伝子モデルの様々な特徴を解析する GTFtools

遺伝子中心のバイオインフォマティクス研究では、遺伝子モデルを操作して、スプライスサイト、プロモーター、独立イントロン、非翻訳領域(UTR)など、遺伝子の様々な特徴を計算または抽出することが頻繁に行われる。遺伝子モデルは、GTF(Gene Transfer Form…

ヒトの遺伝子と転写産物の総合カタログ CHESS 3

ヒト遺伝子のCHESSデータベース(Comprehensive Human Expressed SequenceS)は、Genotype-Tissue Expression (GTEx)プロジェクトで作成されたヒト53部位における約1万件のRNAシーケンス実験から構築され、さらに他のデータベースからの遺伝子を加えて、タン…

GTF/GFFファイルのツールキット AGAT

2023/02/27 intron addに追記 HPより AGATは、あらゆる種類のGTFやGFFの欠落情報(特徴や属性)をチェック、修正、追加し、完全でソートされた標準的なgff3形式を作成する能力を備えている。長年にわたり、GTF/GFFフォーマットファイルに関連するあらゆるタ…

GTF/GFF2をCSVに変換する GTF2CSV

GTF

GTF2CSVは、GFF2をCSVに変換して、データベースに挿入したり、pandasのdataframeに読み込んでスライスしたりすることができる。 インストール pipを使って導入した。 Github pip install git+https://github.com/zyxue/gtf2csv.git#egg=gtf2csv > gtf2csv -h…

GFF/GTFのfeatureをマージする feature_merge

タイトルの通りのツール。 インストール macos10.14でcondaを使って導入した。 依存 Github #bioconda (link)mamba install -c conda-forge -c bioconda -y feature_merge#pip (pypi)pip install feature-merge > feature_merge -h $ feature_merge -h Argum…

ロングリードやショートリードのRNA seq情報をもとに転写領域をアセンブリして出力する StringTie2

2020 7/1 インストール方法追記, コマンド追記 2020 7/2 タイトル修正 2020 7/27 merge追記 2022/06/09 論文引用 2022/12/10, 12/28追記 2023/01/21 レポジトリURL修正 RNAシーケンス(RNAシーケンス)データセット内の転写産物の量を測定することは、細胞の…

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …

GFF ファイルのユーティリティ Gffread

2019 10/15 誤字修正 2020 7/27 help更新 2020 8/14 コマンド追記 2020 12/25 誤字修正 多くのバイオインフォマティクスプログラムは、遺伝子および転写産物をGFF形式(General Feature Format)で表し、ゲノム上の遺伝子および転写産物の特徴(染色体または…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

EnsemblのGenomic feature座標変換機能(CrossMap)

2019 8/22 リンクミス修正 Ensemblのゲノム座標変換ツールを紹介する。オンラインで使用できる。 使い方 Ensembl Tools https://asia.ensembl.org/info/docs/tools/index.html Assembly Converterを選択する。 またはEnsemblのモデル生物ゲノムページからCon…

Genomic featureの座標を変更する UCSC liftOver

ヒトの場合は代表的なリファレンスゲノムもいまだ不完全であり、更新が繰り返されている。また、ゲノムがFinishしているスモールゲノムでも、株や系統の違いによる座標の違いがあり、研究によってはリファレンスゲノムを更新し、coding reginやexonなどのgen…

アラインメントのPAFファイルを扱うユーティリティ paftools

2019,11,15 paftools.js call のコマンドエラー修正 2019 11/26 vatiantコールコマンドのエラー修正 2021 7/21 コマンド例追加 Minimap2には、PAFフォーマットのアライメントを処理する(java)スクリプトpaftools.jsが付属している。paftoolsを使うことで、…

genome trackを可視化する svist4get

次世代シークエンシングは、生命科学の複数のハイスループットな方法を生み出した。その多くは、既存のゲノムアセンブリへのショートリードのマッピングに基づいている。マッピングされたリードの密度および計算により得られたゲノムシグナルトラックの可視…

複数のtranscritome情報(gtf)をマージする TACO

2023/01/04 追記 ハイスループットRNAシークエンシング(RNA-Seq)により、トランスクリプトームの詳細な理解が可能になった(ref.1–3)。手動および自動システムによる high fidelityな遺伝子モデルアノテーションの試みは、主にロースループットシークエン…

BED、VCF、GTFをユーザー定義の方法でソートする gsort

gsortはゲノムファイルをソートするためのツール。たとえば、何らかの理由でVCFを並べ替えて、X、Y、2,1,3、などの順序で並べ替えることができる。他のソートツールでは不可能だったGATK order(1 ... X、Y、MT)に一致するようなソートもできる。ソートは、…

FASTQ、BED、BAMを操作するNGSUtilsその4 gtfutils

GTF

4回目はgtfを操作するgtfutilsを紹介する。 インストール 公式ページ NGSUtils git clone git://github.com/ngsutils/ngsutils.gitcd ngsutils/make #依存がインストールされる(詳細はwebマニュアル参照)#condamamba create -n ngsutils python=2.7 -ycon…

VCF, GTF, GFF などを BED に変換 する BEDOPS

2019 6/17 追記 2020 2/21 タイトル修正 2020 3/30 help追記 BEDヘの変換はawkやperlやpythonのスクリプトで簡単にできるが、BEDOPSのvcf2nedを使うと、indelの種類などによってフィルタリングしながら分類することができ便利である。 インストール #homebre…

GTFとGFFフォーマット

2019 10/15追記 2020 10/13 リンク削除 GTF(General Transfer Format))はgeneのアノテーション専用のフォーマットと定義されている。それに対してGFF(General Feature Format)はtranscriptなどにも使えるよりジェネラルなフォーマットとなっている。この…