macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

tips

fastq-dumpを並列化した pfastq-dump

pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するbashスクリプト。Sequence Read Archive(wiki)からダウンロードされたシーケンスデータ(SRAフォーマット )をfastq-dumpの並列処理で素早くfastqに変換することができる。 インストール …

fastqから素早くインサートサイズを計算する

bamファイルをすでに作っているなら、ペアエンドのインサートサイズはPicard-tools等ですぐ出せますが、raw fastqしかない時にいちいちbamにして求めるのは少し面倒です。ワンランナーで出すスクリプト書きました。好みにあわせて修正して使ってください。手…

cpなどのコマンドの進捗をモニターするprogress

標準では、"cp mv dd tar cat rsync grep fgrep egrep cut sort md5sum sha1sum sha224sum sha256sum sha384sum sha512sum adb gzip gunzip bzip2 bunzip2 xz unxz lzma unlzma 7z 7za zcat bzcat lzcat split gpg" に対応している。 インストール mac10.13…

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

FASTAやFASTQの塩基数をカウントする

インストール TECHOVERFLO((https://techoverflow.net)の公開しているpythonスクリプトを利用させてもらう。該当記事(リンク)からコピーして、ファイル名 fasta-stats.pyで保存。 "chmod u+x python fasta-stats.py"で実行権もつけておく。 > python fas…

シンプルなSRA検索webサイト SRA Explorer

DDBJ、EMBL-EBI、NCBIのSRAの 検索エンジンは情報が多く、簡単にシーケンスデータを取ってくるにはやや使いにくい。ExplorerはSRAの検索ツール。Phil Ewels さんが作成されたwebツールで、SRAのAPIを使い、高速にSRAのデータを検索する。シンプルなインター…

NCBIで全データを一度にblast解析し、得られたリストをEntrez Directでアノテーションに変換する。

複数の配列のblast解析を行う場合、ローカルでデータベースなどを構築して進めるのが一つの手である。しかしローカルだとデータベースの更新や、データサイズが問題になる(例えばnrのデータも2015年にダウンロードすると200GBを超えていた)。 ネットワーク…

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

バイオインフォマティクス解析の初心者の方が、ターミナル環境を扱う際に知ってると便利そうなコマンド、tipsなどを紹介していきます。 Excelの重たい解析データも、ターミナルで操作すればサクサク扱うことができます。ということで、最初は 1、Excelファ…