macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

tips

移動履歴を学習し、移動をナビゲートする autojump

2018 11/17 分かりにくい文章を修正 autojumpは、これまでの移動結果をウエイトをつけて記憶し(学習)、補完機能によって移動を助けたり、ファイラーへの表示を助けるcdのパワーアップ版コマンド。 wiki https://github.com/wting/autojump/wiki autojumpに…

システム情報を表示するneofetch

インストール Github homebrewで導入できる。 brew install neofetch#ubuntuならapt/apt-getsudo apt-get updatesudo apt-get install neofetch またはソースからビルドする。 git clone https://github.com/dylanaraps/neofetch.gitcd neofetch/make PREFIX…

Dockerイメージをリバースエンジニアリングする Whaler

ブログで開発の動機は説明されています。 Reversing Docker Images into Dockerfiles https://samaritan.ai/blog/reversing-docker-images-into-dockerfiles/ インストール mac os10.13のgo version go1.11 darwin/amd64でビルドした。 Go言語がないなら先に…

高速な端末エミュレータ Alacritty

AlacrittyはRustで書かれたGPUをレンダリングに使う高速な端末エミュレータ。OpenGL(wiki)を使ってレンダリングを行う。開発はまだアルファ段階らしいが、すでに色々なプラットフォームに対応している(windowsはこれかららしい)。開発の大きな動機は、WU…

CSVやTSVのファイルを整形表示するtableviewコマンド

tableviewはOKAMURA YasunobuさんがGithubに公開されている、自動でcsv区切りを認識し、人間が見やすいよう整形表示してくれるコマンド。 インストール GIthub リリースから各プラットフォームに対応したバイナリをダウンロードする。ここではmac版をダウン…

fastq-dumpを並列化した pfastq-dump

pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するbashスクリプト。Sequence Read Archive(wiki)からダウンロードされたシーケンスデータ(SRAフォーマット )をfastq-dumpの並列処理で素早くfastqに変換することができる。 インストール …

fastqから素早くインサートサイズを計算する

bamファイルをすでに作っているなら、ペアエンドのインサートサイズはPicard-tools等ですぐ出せますが、raw fastqしかない時にいちいちbamにして求めるのは少し面倒です。ワンランナーで出すスクリプト書きました。好みにあわせて修正して使ってください。手…

cpなどのコマンドの進捗をモニターするprogress

標準では、"cp mv dd tar cat rsync grep fgrep egrep cut sort md5sum sha1sum sha224sum sha256sum sha384sum sha512sum adb gzip gunzip bzip2 bunzip2 xz unxz lzma unlzma 7z 7za zcat bzcat lzcat split gpg" に対応している。 インストール mac10.13…

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

FASTAやFASTQの塩基数をカウントする

インストール TECHOVERFLO((https://techoverflow.net)の公開しているpythonスクリプトを利用させてもらう。該当記事(リンク)からコピーして、ファイル名 fasta-stats.pyで保存。 "chmod u+x python fasta-stats.py"で実行権もつけておく。 > python fas…

シンプルなSRA検索webサイト SRA Explorer

DDBJ、EMBL-EBI、NCBIのSRAの 検索エンジンは情報が多く、簡単にシーケンスデータを取ってくるにはやや使いにくい。ExplorerはSRAの検索ツール。Phil Ewels さんが作成されたwebツールで、SRAのAPIを使い、高速にSRAのデータを検索する。シンプルなインター…

embossのseqretでFASTAを修復する

FASTAをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、特殊文字が入っていたり、何らかの理由があるわけだが、embossのseqretを使うと簡単に修復することができる…

リファレンスを変えて、変異株のゲノム配列を作る。

変異のコール結果であるVCFファイルを元に変異株のゲノムを作りたいことが時々ある。そうゆう時は、gatkのFastaAlternateReferenceMakerが利用できる。 マニュアル gatkがない人はbrewで導入しておく。 brew install gatk 実行方法 入力は変異コール結果のVC…

NCBIで全データを一度にblast解析し、得られたリストをEntrez Directでアノテーションに変換する。

複数の配列のblast解析を行う場合、ローカルでデータベースなどを構築して進めるのが一つの手である。しかしローカルだとデータベースの更新や、データサイズが問題になる(例えばnrのデータも2015年にダウンロードすると200GBを超えていた)。 ネットワーク…

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

バイオインフォマティクス解析の初心者の方が、ターミナル環境を扱う際に知ってると便利そうなコマンド、tipsなどを紹介していきます。 Excelの重たい解析データも、ターミナルで操作すればサクサク扱うことができます。ということで、最初は 1、Excelファ…