macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

tips

コマンドの平均実行時間を計測するRustのコマンド hyperfine

2020 5/13 コマンド追記、タイトル修正 2020 6/27 タイトル再修正 hyperfineはRustのベンチマークツール。コマンドを自動で複数回実行し、結果をまとめてくれる。 インストール GIthub cargoで導入できる(cargo導入)。 cargo install hyperfine > hyperfin…

データの使用量を表示するduのモダンな代替コマンド dust

2020 6/4 写真差し替え Dust は、sortやheadコマンドを必要とせずに、どのディレクトリがディスクスペースを使用しているかの概要を即座に表示することを目的としている。Dust は最大のサブディレクトリやファイルのうち、末端の高さよりも少し小さい数のも…

lsのモダンな代替コマンド exa

2020 6/1 誤字修正, 文章修正 lsが45年以上続いている今、exaは1970年代とは異なる仮定の下で開発することができる。コンピュータはもはやボトルネックではない。1970年代にUnixを開発していた開発者はテレタイプを使ってUnixとやりとりしていただろう。キー…

グラフィカルなリソース監視ツール Netdata

2020 5/8 説明追加 Netdata は、システムやアプリケーションのパフォーマンスをリアルタイムで監視する監視エージェントである。Netdata を使うと、非常にインタラクティブな Web ダッシュボードを使用して、実行中のシステム (Web サーバ、データベース、ア…

Bandageを使ってアセンブリグラフからターゲットの配列を選抜する

2020 3/12 写真差し替え、誤字修正、タイトル修正 De novoアセンブルして得たcontig配列から特定の配列を選抜するにはどうすれば良いだろうか?全ゲノムのショットガンシーケンシングを行なっていても、目的の配列はそのサブセットでしかないことは頻繁にあ…

rocker projectのrstudioコンテナを使う

2020 5/12 説明追加 ライブラリによって要求するRのバージョンが異なり、新しいツールをテストできないことがある。そのような場合、 r-baseのバージョン管理されたdockerイメージを使うと、その場限りの仮想環境にツールをインストールして、気軽にテストす…

(metagenomeのbinned.faから)鉄関連の遺伝子を探す FeGenie

鉄は地球上のほぼすべての生命にとっての微量栄養素である。鉄は、鉄酸化および鉄還元微生物による電子供与体および電子受容体として使用でき、光合成および呼吸を含むさまざまな生物学的プロセスで使用される。鉄は地球の地殻で4番目に豊富な金属だが、鉄は…

UniprotのID変換webサービスを使い、UniProt accessionsからタンパク質のアノテーションを得る

2020 2/4 追記 UniProtのRetrieve/ID mappingサービスを使用すると、UniProt accessions IDからGenbankの配列、PDBのID、Entrez Gene ID、GI nnumber、タンパク質のアノテーションなどに変換できる。 Converting UniProt identifiers to external identifers…

メタゲノムアセンブラの注意点

2019 11/25 誤字修正 メタゲノムのde novoアセンブラについて少し誤解している人がいたので、注意喚起を兼ねて簡単にまとめておく。 メタゲノムのデータセットは特定の環境の生物の混ぜ物のシーケンシングリードに由来しているため、よく似ているがわずかに…

リードやコンティグ配列のリード長ヒストグラム

pyfaidxとRのhistを使えばワンライナーで出力できる。 インストール #python (link)pip install pyfaidx 実行方法 FASTAファイルを指定する。 faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); su…

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …

Genomic featureの座標を変更する UCSC liftOver

ヒトの場合は代表的なリファレンスゲノムもいまだ不完全であり、更新が繰り返されている。また、ゲノムがFinishしているスモールゲノムでも、株や系統の違いによる座標の違いがあり、研究によってはリファレンスゲノムを更新し、coding reginやexonなどのgen…

バクテリア、アーキア、プラスミドの複製起点(ori)データベース DoriC

2019 6/21 誤字修正、コマンド修正 すべての生物において、DNA複製は複製機構の構築段階で正確に制御されている(ref.1)。複製起点は特定のゲノム遺伝子座であり、そこでは二本鎖DNAがほどけて一本鎖DNA鋳型を形成して新しい鎖の合成を開始する。大部分の細…

Bashの履歴検索(reverse search)を改善する McFly

McFlyはデフォルトのctrl-r によるBash履歴検索をインテリジェントなニューラルネットワークを使った検索エンジンで置き換える。エンジンは作業ディレクトリと最近実行されたコマンドのコンテキストを考慮に入れて優先順位を変更する。 インストール homebre…

グラフィック出力が利用できない環境で頻度分布を素早く確認できる bashplotlib

bashplotlibは、端末で基本的なプロットを作成するためのpythonパッケージおよびコマンドラインツール。 GUIがない場合にデータを視覚化する簡単な方法を提供する。pythonでコーディングされており、pipを使って素早くインストールできる。 特徴(githubより…

SPAdesとUnicyclerでlarge k-merを使う part2 (SPAdesのテスト)

2019 12/8 誤字修正 127以上のk-merを使うために、SPAdesとUnicyclerをビルドし直した(リンク)。今回は、実際に127以上のk-mer値でアセンブリを行い、アセンブリ性能がどのように変化するか簡単にテストした結果を書く。 Real dataの傾向が知りたいので、G…

SPAdesとUnicyclerでlarge k-merを使えるようにビルドし直す part1

2020 5/16 ダウンロードリンク更新 これまではk-merの値を増やしても、k-merのピークがノイズの中に埋もれてしまうので意味がないと思いこんでいたが、SKESA(紹介)は、ペアエンドリードをマージし、リード長以上の長いk-merも使ってde brujin gaphを構築し…

SRA Toolkitのfastq-dumpを並列実行して高速化する parallel-fastq-dump

NCBIのfastq-dumpはリソース(ネットワーク、IO、CPU)が速くても、時には非常に遅くなることがある(Githubのprotipを参照)。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション(-Nと-X)があるため、このツールparallel-fastq-dumpは作業を要…

移動履歴を学習し、移動をナビゲートする autojump

2018 11/17 分かりにくい文章を修正 autojumpは、これまでの移動結果をウエイトをつけて記憶し(学習)、補完機能によって移動を助けたり、ファイラーへの表示を助けるcdのパワーアップ版コマンド。 wiki https://github.com/wting/autojump/wiki autojumpに…

システム情報を表示するneofetch

インストール Github homebrewで導入できる。 brew install neofetch#ubuntuならapt/apt-getsudo apt-get updatesudo apt-get install neofetch またはソースからビルドする。 git clone https://github.com/dylanaraps/neofetch.gitcd neofetch/make PREFIX…

Dockerイメージをリバースエンジニアリングする Whaler

ブログで開発の動機は説明されています。 Reversing Docker Images into Dockerfiles https://samaritan.ai/blog/reversing-docker-images-into-dockerfiles/ インストール mac os10.13のgo version go1.11 darwin/amd64でビルドした。 Go言語がないなら先に…

高速な端末エミュレータ Alacritty

AlacrittyはRustで書かれたGPUをレンダリングに使う高速な端末エミュレータ。OpenGL(wiki)を使ってレンダリングを行う。開発はまだアルファ段階らしいが、すでに色々なプラットフォームに対応している(windowsはこれかららしい)。開発の大きな動機は、WU…

CSVやTSVのファイルを整形表示するtableviewコマンド

tableviewはOKAMURA YasunobuさんがGithubに公開されている、自動でcsv区切りを認識し、人間が見やすいよう整形表示してくれるコマンド。 インストール GIthub リリースから各プラットフォームに対応したバイナリをダウンロードする。ここではmac版をダウン…

fastq-dumpを並列化した pfastq-dump

2018 11/25 誤字修正 2019 12/18 インストール手順修正、コマンド実行手順追加 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive(wiki)からダウンロード…

fastqから素早くインサートサイズを計算する

bamファイルをすでに作っているなら、ペアエンドのインサートサイズはPicard-tools等ですぐ出せますが、raw fastqしかない時にいちいちbamにして求めるのは少し面倒です。ワンランナーで出すスクリプト書きました。好みにあわせて修正して使ってください。手…

cpなどのコマンドの進捗をモニターするprogress

標準では、"cp mv dd tar cat rsync grep fgrep egrep cut sort md5sum sha1sum sha224sum sha256sum sha384sum sha512sum adb gzip gunzip bzip2 bunzip2 xz unxz lzma unlzma 7z 7za zcat bzcat lzcat split gpg" に対応している。 インストール mac10.13…

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

FASTAやFASTQの塩基数をカウントする

インストール TECHOVERFLO((https://techoverflow.net)の公開しているpythonスクリプトを利用させてもらう。該当記事(リンク)からコピーして、ファイル名 fasta-stats.pyで保存。 "chmod u+x python fasta-stats.py"で実行権もつけておく。 > python fas…

シンプルなSRA検索webサイト SRA Explorer

DDBJ、EMBL-EBI、NCBIのSRAの 検索エンジンは情報が多く、簡単にシーケンスデータを取ってくるにはやや使いにくい。ExplorerはSRAの検索ツール。Phil Ewels さんが作成されたwebツールで、SRAのAPIを使い、高速にSRAのデータを検索する。シンプルなインター…

FASTAを修復するEMBOSSのseqretコマンド

2019 6/19 インストール追記 2019 7/15 タイトル修正 2019 8/7リンク追加 2019 10/3コメント追加 FASTAをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、特殊文字が…