macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017-07-01から1ヶ月間の記事一覧

de novo transcriptome向けのアノテーションツール; Trinotate

2018 10/30 コード修正 2019 10/11 インストール追記、関連ツールリンク追記 2019 10/12 help追記、 2020 2/1 間違ったdockerリンク消去 de novo transcriptomeのアノテーションツールとしてblast2GOがよく知られているが、Trinotateというツールが発表され…

膜貫通領域を予測する TMHMM

2019 12/18 インストール追記 2022/05/20 リンク更新 TMHMMは膜貫通領域を予測するツール。膜タンパク質であるかどうかの判定にも用いられる。 マニュアル 解凍したディレクトリにユーザーガイド(TMHMM2.0.html)あり。 TMHMM2.0 インストール 依存 perl an…

隠れマルコフモデル(HMM)のペアワイズアラインメントに基づいた高感度なタンパク質配列検索ツール HMMER

2019 6/25インストール追記, 12/17 タイトル修正 2020 7/12 help追加、タイトル修正, 7/14 helpとGitHubリンクを間違ったため差し替え, 8/11 ダウンロードリンクをカレントに修正 2022/04/07 インストール手順更新、06/24 論文引用、07/08 追記 2024/02/01 …

rRNAを探索する RNAMMER

2020 8/22 関連ツールリンク追記 2023/02/28 追記 fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時な…

タンパク質のコード領域を推定する TransDecoder

2019 5/8 インストール追記, 11/29 インストール追記 2020 7/12 仮想環境を作ってインストールするように変更, help追記(コメントいただいたstepも修正しました。)。8/11 リンク追加、誤字修正 2023/01/01 追記、diamond 追記 2023/04/15 step2のコマンド…

シグナルペプチド切断部位を予測する signalP

SignalPは、タンパク質のシグナル配列の切断部位を予測するツール。商用の解析ソフトCLCにも導入されている。 web server版とローカル版がある。 signalIP4.1 webサーバー http://www.cbs.dtu.dk/services/SignalP/ web server版は統合TVを参考にしてくださ…

ゲノム情報はないが、モデル生物と近縁な生物のRNA seq 解析

ゲノム情報はないが近縁種のゲノムが解読されているような生物でRNA seqを行うと決まったら、どんなワークフローで進めるべきだろうか?マイクロアレイと違い、RNA seqならde novoでも解析は不可能ではない。ゲノムがモデル生物とほぼ同じならば、深く考えな…

フォーマット変換 FASTA => BED

fasta.faiから作る。 samtools faidx input.fasta awk '{print $1 "\t0\t" $2}' input.fasta.fai > output.bed またはpythonのスクリプトを使う。 pip install pyfaidx faidx --transform bed input.fasta > output.bed ヒトゲノムhg19ならこのようなbedがで…

BEDフォーマット

UCSCのゲノムブラウザーなどで使うフォーマット。最初の3列が必須で、オプションでさらに9列情報がつく場合がある。 最初の3列に記載する情報 クロモソームの名前(e.g., chr1) リードや遺伝子のスタートポジション(ポジションは1でなく0スタート) リー…

VCF, GTF, GFF などを BED に変換 する BEDOPS

2019 6/17 追記 2020 2/21 タイトル修正 2020 3/30 help追記 BEDヘの変換はawkやperlやpythonのスクリプトで簡単にできるが、BEDOPSのvcf2nedを使うと、indelの種類などによってフィルタリングしながら分類することができ便利である。 インストール #homebre…

bedtoolsでpromoter配列を抽出する。

Biostarとbedtoolsの公式サイトに、bedtoolsを使ったpromoter配列の抽出の仕方がまとめられている(How To Use Bedtools To Extract Promoters From A Mouse Bed File)。試してみる。 このようなbedファイルの各featureの上流を抽出する。 user$ head -5 ge…

オオムギ(大麦)のRNA seq解析

勉強会用資料 時系列データ publishされた論文 http://www.sciencedirect.com/science/article/pii/S1631069115000888?via=ihub 利用するシーケンスデータ https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP032854 fastaとgtf http://plants.ensembl.org/…

bedtools

追記 bedgraph出力 2019 9/4 インストール、twitterリンク追加 BEDファイルのオーバーラップ領域を抽出したり、マージしたりできるツール。BED以外にGFF、VCFも扱うことができる。bedtools <command> -a .bed -b .bedという使い方が基本。-aで指定したbedを-bで指定し</command>…

IGVが重い時のtips

IGVにbamファイルを読み込むと重くて困ることがある。表示を軽くするためのtipsを書いておく。 bamを読み込んでリードが見えるまで拡大した状態。 view -> Preference 赤枠部分を以下のように修正。 リードがダウンサンプリングされ、動作が軽くなった。 ま…

bamからbigWigとWiggle Formatに変換するツール

2019 3/20 誤字修正 2021 12/23 コマンド修正 2023/10/01追記 bamからwiggleファイルに変換してviewerに取り込むと、カバレッジtrackとして表示できる。ただしそれにはsamtoolsのpileupを使いbamからwiggleファイルを作る必要があり、作り方がやや面倒だった…

eukaryotesのアノテーションツール Augustus

Augustusはblast2goでも使われているeukaryotesのアノテーションツール。既存の他の手法と比較しても精度が高い手法と述べられている(検証リンク)。高速なwebサーバー版と、RNA-seqのbamファイルを指定してexon-intron情報を与え、予測精度を上げるlocal版…

アセンブル結果をCore gene setの検出数で評価する BUSCO

2018 1/9 version3のコマンドを最後に追記 2019 2/24 論文追記 2019 7/5 verrsion3向けに説明をアップデート 2019 11/24 論文追記 2019 12/26 v4インストール追記 2020 3/26 v4 追記 2020 6/15 構成を変更 2020 7/7 v4 のtrancrripts の説明が間違っていたの…

シロイヌナズナのRNA seq解析

2018 10/9 誤字修正 2018 10/22 CyVerseチュートリアル追記 2018 12/09 mapping追記 2018 12/12 前処理リンク追加 2019 10/21 リンク追加 植物のRNA seqを初めてされる方向けに作成した資料です。 真似すれば流れを再現できるように記載しています。興味があ…

RNA seqのリードカウント featureCounts

2019 6/19 インストール追記 2019 6/19 追記 2019 8/14 help追加 2019 8/15 run log追加 2020 11/1 コマンド追加 RNA reqのリードカウントツールを紹介する。 featureCounts ダウンロード sourceforgeリンク https://sourceforge.net/projects/subread/files…

edgeR

2019 4/30 インストール方法修正 2022 1/23 追記 発現が負の二項分布に従うと仮定した検定法。正規化はTMMで行う。FPKM/RPKM補正のcufflinksより正しくDEGの検出ができる検定法とされる。詳細は門多先生のスライドやdry本の序章の正規化の話を読んでください…

IGVをコマンドラインから起動する

2019/12/28 インストール追記 IGVはいくつかのバージョンが提供されいる。デスクトップにショートカットを作ってjavaのwebスタート版を使っている人もいるかもしれないが、コマンドラインから叩くやり方も知っておくと便利である。 まずigvを導入。igvtools…

RNA seqのワークフロー タキシードプロトコル

2012年にnatureでtophatとcufflinksを使ったRNA-seq解析の手法が発表されている。 http://www.nature.com/nprot/journal/v7/n3/full/nprot.2012.016.html tophat、bowtie、cufflinksなどを使ったいわゆるタキシードプロトコルはRNA seqの1つのワークフロー…

複数のトランスポゾン検出ツールをまとめてインストールして、ランするスクリプト

Githubで公開されているmcclintockは複数のトランスポゾン検出ツールをまとめて走らせることができるツールである。以下の6つのツールを走らせてくれる。 ngs_te_mapper - Linheiro and Bergman (2012) RelocaTE - Robb et al. (2013) TEMP - Zhuang et al.…

トランスポゾン検出ツール5 RelocaTEとRelocaTE2

RelocaTE RelocaTEはゲノム中のトランスポゾンを検出する手法。トランスポゾンの配列を入力してランする。 検出するトランスポゾンの配列、ターゲット配列、などがわかっていないと正しく機能しない。 依存するもの Blat Bowtie 1 BioPerl SAMtools BWA Reco…

バクテリアのIS検出ツール IS_mapper

2019 2/19 インストールの流れを修正 2021 8/11 condaインストール追記, help更新 見つけたいIS配列や抗生物質耐性カセット配列をあらかじめ入力することで、ペアエンド情報を使いISの位置を検出してくれるツール。バクテリア用に設計されており、macbook ai…

トランスポゾン検出ツール3 Jitterbug

ショートリードのアライメントデータから、トランスポゾン挿入位置を検出するツール。入力はリファレンスにアライメントしたbamファイルで、トランスポゾン配列を準備してアライメントする必要はない。配列の位置がgff3で入力されていればよい。その代わりに…

トランスポゾン検出ツール2 ngs_te_mapper

ショートリードをリファレンスゲノムにアライメントし、de novoでトランスポゾン挿入部位を検出する。論文ではBLATをアライメントに使っていたが、gitでダウンロードできる現バージョンはbwaでアライメントを行うようになっている。トランスポゾン挿入時にト…

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

バイオインフォマティクス解析の初心者の方が、ターミナル環境を扱う際に知ってると便利そうなコマンド、tipsなどを紹介していきます。 Excelの重たい解析データも、ターミナルで操作すればサクサク扱うことができます。ということで、最初は 1、Excelファ…