macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

tips

NCBI Genome のBrowse by Organism機能

ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリアやアーキアはゲノ…

3990xの計算機でprokka を並列ランする(ベンチマーク)

2020 9/17、9/20 文章修正 3990x(64コア)のような多くのCPUコアが利用できるプロセッサを積んだ計算機を使いこなすには、高度に並列化された計算が欠かせない。しかし並列化は技術的に可能なケースと不可能なケースが存在する。並列化が捗りそうなHigh-Thr…

NCBI taxdumpをlineageファイルに変換するスクリプト NCBItax2lin

2020 9/9,9/10 コード修正 タイトルの通り。 インストール condaでpython3.7の仮想環境を作ってテストした(macos10.14)。 依存 ncbitax2lin requires python-3.7 Github conda create -n ncbitax2lin -y python=3.7conda activate ncbitax2linpip install …

 tty-tableを使ってターミナルで表を整形表示する

2020 8/8 タイトル修正 タイトルの通り 。CLI環境で表を見やすく表示する。 インストール Node.jsのパッケージマネージャnpmを使う(gemにも対応)npm install tty-table -g > tty-table -h $ tty-table -h オプション: --version バージョンを表示 [真偽] -…

コマンドの平均実行時間を計測するRustのコマンド hyperfine

2020 5/13 コマンド追記、タイトル修正 2020 6/27 タイトル再修正 hyperfineはRustのベンチマークツール。コマンドを自動で複数回実行し、結果をまとめてくれる。 インストール GIthub cargoで導入できる(cargo導入)。 cargo install hyperfine > hyperfin…

データの使用量を表示するduのモダンな代替コマンド dust

2020 6/4 写真差し替え Dust は、sortやheadコマンドを必要とせずに、どのディレクトリがディスクスペースを使用しているかの概要を即座に表示することを目的としている。Dust は最大のサブディレクトリやファイルのうち、末端の高さよりも少し小さい数のも…

lsのモダンな代替コマンド exa

2020 6/1 誤字修正, 文章修正 lsが45年以上続いている今、exaは1970年代とは異なる仮定の下で開発することができる。コンピュータはもはやボトルネックではない。1970年代にUnixを開発していた開発者はテレタイプを使ってUnixとやりとりしていただろう。キー…

グラフィカルなリソース監視ツール Netdata

2020 5/8 説明追加 Netdata は、システムやアプリケーションのパフォーマンスをリアルタイムで監視する監視エージェントである。Netdata を使うと、非常にインタラクティブな Web ダッシュボードを使用して、実行中のシステム (Web サーバ、データベース、ア…

Bandageを使ってアセンブリグラフからターゲットの配列を選抜する

2020 3/12 写真差し替え、誤字修正、タイトル修正 De novoアセンブルして得たcontig配列から特定の配列を選抜するにはどうすれば良いだろうか?全ゲノムのショットガンシーケンシングを行なっていても、目的の配列はそのサブセットでしかないことは頻繁にあ…

rocker projectのrstudioコンテナを使う

2020 5/12 説明追加 ライブラリによって要求するRのバージョンが異なり、新しいツールをテストできないことがある。そのような場合、 r-baseのバージョン管理されたdockerイメージを使うと、その場限りの仮想環境にツールをインストールして、気軽にテストす…

(metagenomeのbinned.faから)鉄関連の遺伝子を探す FeGenie

鉄は地球上のほぼすべての生命にとっての微量栄養素である。鉄は、鉄酸化および鉄還元微生物による電子供与体および電子受容体として使用でき、光合成および呼吸を含むさまざまな生物学的プロセスで使用される。鉄は地球の地殻で4番目に豊富な金属だが、鉄は…

UniprotのID変換webサービスを使い、UniProt accessionsからタンパク質のアノテーションを得る

2020 2/4 追記 UniProtのRetrieve/ID mappingサービスを使用すると、UniProt accessions IDからGenbankの配列、PDBのID、Entrez Gene ID、GI nnumber、タンパク質のアノテーションなどに変換できる。 Converting UniProt identifiers to external identifers…

メタゲノムアセンブラの注意点

2019 11/25 誤字修正 メタゲノムのde novoアセンブラについて少し誤解している人がいたので、注意喚起を兼ねて簡単にまとめておく。 メタゲノムのデータセットは特定の環境の生物の混ぜ物のシーケンシングリードに由来しているため、よく似ているがわずかに…

リードやコンティグ配列のリード長ヒストグラム

pyfaidxとRのhistを使えばワンライナーで出力できる。 インストール #python (link)pip install pyfaidx 実行方法 FASTAファイルを指定する。 faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); su…

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …

Genomic featureの座標を変更する UCSC liftOver

ヒトの場合は代表的なリファレンスゲノムもいまだ不完全であり、更新が繰り返されている。また、ゲノムがFinishしているスモールゲノムでも、株や系統の違いによる座標の違いがあり、研究によってはリファレンスゲノムを更新し、coding reginやexonなどのgen…

バクテリア、アーキア、プラスミドの複製起点(ori)データベース DoriC

2019 6/21 誤字修正、コマンド修正 すべての生物において、DNA複製は複製機構の構築段階で正確に制御されている(ref.1)。複製起点は特定のゲノム遺伝子座であり、そこでは二本鎖DNAがほどけて一本鎖DNA鋳型を形成して新しい鎖の合成を開始する。大部分の細…

Bashの履歴検索(reverse search)を改善する McFly

McFlyはデフォルトのctrl-r によるBash履歴検索をインテリジェントなニューラルネットワークを使った検索エンジンで置き換える。エンジンは作業ディレクトリと最近実行されたコマンドのコンテキストを考慮に入れて優先順位を変更する。 インストール homebre…

グラフィック出力が利用できない環境で頻度分布を素早く確認できる bashplotlib

bashplotlibは、端末で基本的なプロットを作成するためのpythonパッケージおよびコマンドラインツール。 GUIがない場合にデータを視覚化する簡単な方法を提供する。pythonでコーディングされており、pipを使って素早くインストールできる。 特徴(githubより…

SPAdesとUnicyclerでlarge k-merを使う part2 (SPAdesのテスト)

2019 12/8 誤字修正 127以上のk-merを使うために、SPAdesとUnicyclerをビルドし直した(リンク)。今回は、実際に127以上のk-mer値でアセンブリを行い、アセンブリ性能がどのように変化するか簡単にテストした結果を書く。 Real dataの傾向が知りたいので、G…

SPAdesとUnicyclerでlarge k-merを使えるようにビルドし直す part1

2020 5/16 ダウンロードリンク更新 これまではk-merの値を増やしても、k-merのピークがノイズの中に埋もれてしまうので意味がないと思いこんでいたが、SKESA(紹介)は、ペアエンドリードをマージし、リード長以上の長いk-merも使ってde brujin gaphを構築し…

SRA Toolkitのfastq-dumpを並列実行して高速化する parallel-fastq-dump

NCBIのfastq-dumpはリソース(ネットワーク、IO、CPU)が速くても、時には非常に遅くなることがある(Githubのprotipを参照)。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション(-Nと-X)があるため、このツールparallel-fastq-dumpは作業を要…

移動履歴を学習し、移動をナビゲートする autojump

2018 11/17 分かりにくい文章を修正 autojumpは、これまでの移動結果をウエイトをつけて記憶し(学習)、補完機能によって移動を助けたり、ファイラーへの表示を助けるcdのパワーアップ版コマンド。 wiki https://github.com/wting/autojump/wiki autojumpに…

システム情報を表示するneofetch

インストール Github homebrewで導入できる。 brew install neofetch#ubuntuならapt/apt-getsudo apt-get updatesudo apt-get install neofetch またはソースからビルドする。 git clone https://github.com/dylanaraps/neofetch.gitcd neofetch/make PREFIX…

Dockerイメージをリバースエンジニアリングする Whaler

ブログで開発の動機は説明されています。 Reversing Docker Images into Dockerfiles https://samaritan.ai/blog/reversing-docker-images-into-dockerfiles/ インストール mac os10.13のgo version go1.11 darwin/amd64でビルドした。 Go言語がないなら先に…

高速な端末エミュレータ Alacritty

AlacrittyはRustで書かれたGPUをレンダリングに使う高速な端末エミュレータ。OpenGL(wiki)を使ってレンダリングを行う。開発はまだアルファ段階らしいが、すでに色々なプラットフォームに対応している(windowsはこれかららしい)。開発の大きな動機は、WU…

CSVやTSVのファイルを整形表示するtableviewコマンド

tableviewはOKAMURA YasunobuさんがGithubに公開されている、自動でcsv区切りを認識し、人間が見やすいよう整形表示してくれるコマンド。 インストール GIthub リリースから各プラットフォームに対応したバイナリをダウンロードする。ここではmac版をダウン…

fastq-dumpを並列化した pfastq-dump

2018 11/25 誤字修正 2019 12/18 インストール手順修正、コマンド実行手順追加 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive(wiki)からダウンロード…

fastqから素早くインサートサイズを計算する

bamファイルをすでに作っているなら、ペアエンドのインサートサイズはPicard-tools等ですぐ出せますが、raw fastqしかない時にいちいちbamにして求めるのは少し面倒です。ワンランナーで出すスクリプト書きました。好みにあわせて修正して使ってください。手…

cpなどのコマンドの進捗をモニターするprogress

標準では、"cp mv dd tar cat rsync grep fgrep egrep cut sort md5sum sha1sum sha224sum sha256sum sha384sum sha512sum adb gzip gunzip bzip2 bunzip2 xz unxz lzma unlzma 7z 7za zcat bzcat lzcat split gpg" に対応している。 インストール mac10.13…