macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

bed

genome trackを可視化する svist4get

次世代シークエンシングは、生命科学の複数のハイスループットな方法を生み出した。その多くは、既存のゲノムアセンブリへのショートリードのマッピングに基づいている。マッピングされたリードの密度および計算により得られたゲノムシグナルトラックの可視…

BED、VCF、GTFをユーザー定義の方法でソートする gsort

gsortはゲノムファイルをソートするためのツール。たとえば、何らかの理由でVCFを並べ替えて、X、Y、2,1,3、などの順序で並べ替えることができる。他のソートツールでは不可能だったGATK order(1 ... X、Y、MT)に一致するようなソートもできる。ソートは、…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

全ゲノムやExomeのカバレッジを素早く計算する mosdepth

カバレッジデプスの測定は、コピー数変動(CNV)の検出などのゲノム解析にとってクリティカルで、例えばcn.mops(Klambauer et al、2012)、Indexcov(Pedersen et al、2017)などのどのゲノム領域のカバレッジが低すぎるか高すぎるか(Li、2014)調べる方法…

低複雑度領域由来のリードを除去する RepeatSoaker

次世代シークエンシング(NGS)技術は、主に、DNA / RNAサンプルからの数百万回のリードの超並列シーケンシングに基づいており、リード長は増加している[論文より ref.1,2]。 NGSのコストは急速に低下し、その結果、転写を研究するためにマイクロアレイの使…

バクテリアをstrainレベルで検出する StrainSeeker

病原性細菌の検出には、細菌病原体を迅速に同定する必要がある。このために、通常、病原体は単離され、PCRや全ゲノム配列が行われる。分子タイピングの主な目標の1つは、病原体をクローン群に分類することである。なぜなら、同じ種の系統は宿主に対して大き…

FASTQ、BED、BAMを操作するNGSUtilsその2 bedutils

bed

2回目はbedを操作するbedutilsを紹介する。 インストール 公式ページ NGSUtils - bedutils git clone git://github.com/ngsutils/ngsutils.gitcd ngsutils/make #依存がインストールされる(詳細はwebマニュアル参照) $ ./bedutils Usage: bedutils COMMAN…

BEDフォーマット

UCSCのゲノムブラウザーなどで使うフォーマット。最初の3列が必須で、オプションでさらに9列情報がつく場合がある。 最初の3列に記載する情報 クロモソームの名前(e.g., chr1) リードや遺伝子のスタートポジション(ポジションは1でなく0スタート) リー…

BEDOPSを使いVCF, GTF, GFF などを BED に変換 する。

2019 6/17 追記 BEDヘの変換はawkやperlやpythonのスクリプトで簡単にできるが、BEDOPSのvcf2nedを使うと、indelの種類などによってフィルタリングしながら分類することができ便利である。 インストール #homebrewbrew install BEDOPS#bioconda(link)conda i…

bedtoolsでpromoter配列を抽出する。

Biostarとbedtoolsの公式サイトに、bedtoolsを使ったpromoter配列の抽出の仕方がまとめられている(How To Use Bedtools To Extract Promoters From A Mouse Bed File)。試してみる。 このようなbedファイルの各featureの上流を抽出する。 user$ head -5 ge…

bedtools

追記 bedgraph出力 BEDファイルのオーバーラップ領域を抽出したり、マージしたりできるツール。BED以外にGFF、VCFも扱うことができる。bedtools <command> -a .bed -b .bedという使い方が基本。-aで指定したbedを-bで指定したbedと比較する。出力はリダイレクト(>)</command>…