macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

tips

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

FASTAやFASTQの塩基数をカウントする

インストール TECHOVERFLO((https://techoverflow.net)の公開しているpythonスクリプトを利用させてもらう。該当記事(リンク)からコピーして、ファイル名 fasta-stats.pyで保存。 "chmod u+x python fasta-stats.py"で実行権もつけておく。 > python fas…

シンプルなSRA検索webサイト SRA Explorer

DDBJ、EMBL-EBI、NCBIのSRAの 検索エンジンは情報が多く、簡単にシーケンスデータを取ってくるにはやや使いにくい。ExplorerはSRAの検索ツール。Phil Ewels さんが作成されたwebツールで、SRAのAPIを使い、高速にSRAのデータを検索する。シンプルなインター…

EMBOSSのseqretを使ってfastaファイルを修復する

2019 6/19 インストール追記 2019 7/15 タイトル修正 2019 8/7リンク追加 2019 10/3コメント追加 fastaファイルfをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、…

リファレンスを変えて、変異株のゲノム配列を作る。

2019 8/3 リンク追加 2021 2/17 dockerhubリンク追加 変異のコール結果であるVCFファイルを元に変異株のゲノムを作りたいことが時々ある。そうゆう時は、gatkのFastaAlternateReferenceMakerが利用できる。 マニュアル gatkがない人はbrewで導入しておく。 b…

NCBIで全データを一度にblast解析し、得られたリストをEntrez Directでアノテーションに変換する。

2020 10/9 リンク追加 複数の配列のblast解析を行う場合、ローカルでデータベースなどを構築して進めるのが一つの手である。しかしローカルだとデータベースの更新や、データサイズが問題になる(例えばnrのデータも2015年にダウンロードすると200GBを超えて…

bamからbigWigとWiggle Formatに変換するツール

2019 3/20 誤字修正 2021 12/23 コマンド修正 2023/10/01追記 bamからwiggleファイルに変換してviewerに取り込むと、カバレッジtrackとして表示できる。ただしそれにはsamtoolsのpileupを使いbamからwiggleファイルを作る必要があり、作り方がやや面倒だった…

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

バイオインフォマティクス解析の初心者の方が、ターミナル環境を扱う際に知ってると便利そうなコマンド、tipsなどを紹介していきます。 Excelの重たい解析データも、ターミナルで操作すればサクサク扱うことができます。ということで、最初は 1、Excelファ…