2017-07-03

トランスポゾン検出ツール2　ngs_te_mapper

ショートリードをリファレンスゲノムにアライメントし、de novoでトランスポゾン挿入部位を検出する。論文ではBLATをアライメントに使っていたが、gitでダウンロードできる現バージョンはbwaでアライメントを行うようになっている。トランスポゾン挿入時にトランスポゾン末端に複製されてできるtarget site dupplicationを指標にしてトランスポゾン挿入部位を探すらしい。

依存するもの

本体はGithubからダウンロードできる。

リンク

ダウンロードしたディレクトリにテスト用のシェルスクリプトが含まれている。これをランしてみる。

git clone https://github.com/bergmanlab/ngs_te_mapper.git 
cd ngs_te_mapper 
bash sourceCode/run_ngs_te_mapper.sh

上のシェルスクリプトを実行すると、まずwgetでリファンレス配列とシーケンスデータがダウンロードされ、整形後、ngs_te_mapper.Rが実行される。終わると続いてngs_te_logo.Rが実行される。テストだがかなり重たいデータなので、実行時は環境に注意する。

実行方法

テスト中

引用

Transposon Insertion Finder (TIF): a novel program for detection of de novo transpositions of transposable elements.

Mariko Nakagome, Elena Solovieva, Akira Takahashi, Hiroshi Yasue, Hirohiko Hirochika, and Akio Miyao

BMC Bioinformatics. 2014; 15: 71.

2017-07-02

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

tips format conversion

バイオインフォマティクス解析の初心者の方が、ターミナル環境を扱う際に知ってると便利そうなコマンド、tipsなどを紹介していきます。

Excelの重たい解析データも、ターミナルで操作すればサクサク扱うことができます。ということで、最初は

１、Excelファイルからデータを抽出し、ついでに並べ替え、抽出なども高速で行う。

excelファイルからcsvを抽出できるxlsx2csvを使います。

Githubリンク

GitHub - dilshod/xlsx2csv: Convert xslx to csv, it is fast, and works for huge xlsx files

pipでインストールします。

pip install xlsx2csv

インストールしたライブラリの確認

pip freeze

出てくるリストの中にxlsx2csvがあることを確認します。

ランは

xlsx2csv

で行います。

以下のような内容のExcelファイル (data.xlsx) があるとします。

	name	read
1	gene1	42
2	gene2	3333
3	gene3	363
4	gene4	73
5	gene5	846
6	gene6	200
7	gene7	36464
8	gene8	452
9	gene9	842
10	gene10	462

csvへの変換は以下のコマンドを打ちます。

xlsx2csv data.xlsx > output.csv
cat output.csv

home$ xlsx2csv 1.xlsx > output.csv

home$ cat output.csv

,name,read

1,gene1,42

2,gene2,3333

3,gene3,363

4,gene4,73

5,gene5,846

6,gene6,200

7,gene7,36464

8,gene8,452

9,gene9,842

10,gene10,462

白文字部分がcsvファイルに変換された出力結果です。オリジナルのexcelデータの並びが崩れていないことを確認します。

ただ抽出するだけならこれで終わりですが、パイプを使い、様々なコマンドで内容をソートしたり文字変換して、１発で都合の良い形式で出力する方法を学びます。複数のコマンドが出てきてややこしいですが、UNIXのコマンドに不慣れな方はこの流れを真似して一緒に覚えてしまえば楽になります。

１列目はただの通し番号なので変換時に消します。それにはパイプ（縦棒）を使い、cutコマンドと組み合わせます。2-3列目だけ出力するなら、

xlsx2csv data.xlsx |cut -d "," -f 2,3 > output.csv

-fで出力する列を指定。

-dでフィールドセパレータを指定、ここでは ' で区切られてるので-d "'"。例えばスペースで仕切られているなら-d " "。

出力は

name,read

gene1,42

gene2,3333

gene3,363

gene4,73

gene5,846

gene6,200

gene7,36464

gene8,452

gene9,842

gene10,462

１行目が消えていることが分かります。

さらに２列目のreadの数値の降順で並べ替えもすることにします。再びパイプでつなぎ、cutの結果をsortに繋げます。

xlsx2csv data.xlsx |cut -d "," -f 2,3 |sort -t "," -k 2 -n -r > output.csv

sortのオプションは

-tでフィールドセパレータを指定。

-kで出力する列を指定。

-nで数値でソート。

-rで降順ソート。-昇順ソートなら-rを消す。

出力は

gene7,36464

gene2,3333

gene5,846

gene9,842

gene10,462

gene8,452

gene3,363

gene6,200

gene4,73

gene1,42

name,read

２列目の数値の降順でソートされています。

名前に重複がないか確認もしておきます。uniqコマンドを使います。

xlsx2csv data.xlsx |cut -d "," -f 2,3 |sort -t "," -k 2 -n -r |uniq -c > output.csv

-cをつけると出力の左端に登場回数が出ます。重複行があれば、１つを残して消されて出力されます。

1 gene7,36464

1 gene2,3333

1 gene5,846

1 gene9,842

1 gene10,462

1 gene8,452

1 gene3,363

1 gene6,200

1 gene4,73

1 gene1,42

1 name,read

uniqの注意点ですが、uniqは連続した行にしか効果がないので、必ず先に重複チェックしたい列に対してsortをかけておきます。

１番下は必要ないのでcutします。"haed -番号"、で先頭から指定行だけ抽出します。

xlsx2csv data.xlsx |cut -d "," -f 2,3 |sort -t "," -k 2 -n -r |uniq -c |head -10 > output.csv

出力は

gene7,36464

gene2,3333

gene5,846

gene9,842

gene10,462

gene8,452

gene3,363

gene6,200

gene4,73

gene1,42

末尾から指定するなら"tail -番号" を使います。途中を抜くならsedを使います（10-100行目を抜くならsed -e "10,100d"）。

検索文字がある行だけ出力したいならgrepを使います。

xlsx2csv data.xlsx |cut -d "," -f 2,3 |sort -t "," -k 2 -n -r |uniq -c |grep --color=auto "gene" > output.csv

grepをつけると、検索対象に合致した行だけ出力されます。--color=autoで検索文字に色がつきます。出力は

1 gene7,36464

1 gene2,3333

1 gene5,846

1 gene9,842

1 gene10,462

1 gene8,452

1 gene3,363

1 gene6,200

1 gene4,73

1 gene1,42

-vをつけると、ヒットしなかった行だけ出力されます。-oをつけると検索文字のみ出力され、-iをつけると大文字小文字の区別なく検索します。

sedも組み合わせ、,をスペースに置換します。

xlsx2csv data.xlsx |cut -d "," -f 2,3 |sort -t "," -k 2 -n -r |uniq -c |grep "gene" |sed -e 's/,/ /g' > output.csv

出力は

1 gene7 36464

1 gene2 3333

1 gene5 846

1 gene9 842

1 gene10 462

1 gene8 452

1 gene3 363

1 gene6 200

1 gene4 73

1 gene1 42

区切りが,からスペースに変わっています。

このあたりのコマンドを組み合わせれば、ある程度複雑な変換もワンライナーのコマンドでできて便利です。

本当はもっと体系的に説明すべきなので、時間があればまとめたいと思います。

2017-06-29

トランスポゾン検出ツール1　MELT

transposon structural variations (SV) 2015 Nature human genome

2021 8/20 help追加

MELTは、iiluminaのペアエンドデータを使いリファレンスに存在しないmobile elementを検出するツール。以前1000 genomeで使われていたが、その後バージョンアップにより様々なゲノムに対応するようになった。SGEの分散コンピュータ環境から、SGEを使わない環境でも動く高いスケーラビリティを備えている。依存するソフトウエアも最小限になっており、エラーが起こりにくい設計を特徴とするらしい。

原理としては、一般的な構造変化の検出法と同じものを用いているが、途中からトランスポゾン検出に特化したパイプラインになっている。流れは大きく４つに分けることができる。１、ペアリードのマッピング（--> <--）が異常なペア（discordant read pair）の探索。２、おかしペアリードをユーザーが与えたトランスポゾン配列にアライメント。３、クロモソーム上を"waiking"して、トランスポゾンの挿入位置を正確に求める。４、情報を集計し、トランスポゾンごとに出力。この２のアライメントでbowtie2を使うため、MELTをランするにはbowtie2が前もってインストールされている必要がある。

依存

bowtie2
java -version1.7

ダウンロード

公式サイトのdownloadタブからダウンロードできる。

MELT - Home

解凍して中に入る。MELT.jarが実行ファイル。

> java -jar MELT.jar

MELTv2.2.2 - Perform transposon analysis.

java -jar MELT.jar <Runtime>

Possible options for <Runtime>:

BuildTransposonZIP Create an MEI.zip file for input into other MELT Runtimes.

Preprocess Process .bam files for MELT analysis.

Single Run a single .bam file through MELT analysis.

SGE Run multiple .bam files through MELT analysis using SGE.

IndivAnalysis Step 1 of MELT-SPLIT -- Discover Putative MEIs.

GroupAnalysis Step 2 of MELT-SPLIT -- Determine MEI Breakpoint and Information.

Genotype Step 3 of MELT-SPLIT -- Genotype Putative MEIs.

MakeVCF Step 4 of MELT-SPLIT -- Perform final filtering and output VCF.

Source Build a source L1 file for input to Transduction.

TransductionFind Preprocess bam files for L1 3' Transduction discovery in already run MELT data.

TransductionMerge Search for L1 3' Transductions in already run MELT data using preprocessed .trans files.

Deletion-Genotype Genotype a .bam file for reference MEI deletions.

Deletion-Merge Merge multiple reference deletion genotypes into final VCF.

CALU CAlu Alu analysis. Classify Alu according to family and subfamily.

LINEU LineU L1 analysis. Classify L1 according to family and subfamily.

GENERIC Determine differences between a consensus ME sequence and additional copies.

--help/-help/-h will print this message and exit

> java -jar /MELT.jar Single

$ java -jar /MELT.jar Single

Command Line:

MELT.jar Single

Start time: 2021/08/20 11:00:51

Performing MELT analysis...

Missing required options: bamfile, h, w, t, n

usage: java -jar MELT.jar Single <options>

MELTv2.2.2 - MELT-Single - Perform transposon analysis on a single sample.

-a Reads have been aligned with bwa-aln. [false]

-ac Remove ac0 sites from final VCF file. [false]

-b <arg> Exclusion list for chromosomes. A '/' seperated list: i.e. to exclude chromosomes 1,2, and 4, put -b 1/2/4. [null]

-bamfile <arg> Bam file for MEI analysis.

-bowtie <arg> Path to the bowtie2 binary if not in PATH [null].

-c <arg> Coverage level of supplied bam file. Overides internal MELT coverage calculation if set. [null]

-cov <arg> Standard deviation cutoff when calling final sites in integer format. [35]

-d <arg> Minumum length of chromosome/contig size for calling elements. [1000000]

-e <arg> Expected insert size between reads. [500]

-exome Run MELT in exome mode (raises initial sensitivity of IndivAnalysis step). [false]

-h <arg> Path to the reference sequence used to align reads.

-j <arg> Total percentage of sites allowed to be no call (in integer form i.e. 25 percent would be -i 25, not .25). [25]

-k BAM file(s) have already been processed for discordant pairs (suffixes .fq, .disc, and .disc.bai are already present for the bam file in -l). [false]

-mcmq <arg> Allow MELT to use MC/MQ tags at greater than X percentage prevalance in the original bam file. [95.0]

-n <arg> Path to the genome annotation.

-nocleanup Do not cleanup MELT intermediate files after running. [false]

-q Alignments are phred+64 quality encoding. [false]

-r <arg> Read length of the supplied bam file(s). [100]

-s <arg> Standard deviation cutoff for excluding sites with improper balance of readpairs in double format. [2.0]

-samtools <arg> Path to samtools binary if not in PATH (i.e. /bin/samtools) [null].

-sr <arg> Filter sites with less than X SRs during breakpoint ascertainment. Default, 0, is to not filter any such sites. [0]

-t <arg> Path to the transposon ZIP file(s) to be used for this analysis.

-w <arg> Path to the working root directory.

-z <arg> Maximum reads to load into memory when iterating over sequence files. Setting higher increases run time, but may increase sensitivity in large (>60X coverage) bam files. Setting lower may decrease sensitivity in all bam files. [5000]

-help will print this message and exit

2017年６月現在、javaはversion1.８が最新になっている。ランするにはjava 1.7が必要になってくるので注意してください（java7リンク）。=> その後1.8でも動作はしました。

実行方法

入力はbwa memかalnで作成されたアライメントファイルである。結果は標準的なvcf4.1のフォーマットで出力される。

マニュアルに記載されているヒトゲノムのデータでテストランしてみる。ラン前にhg19のbamとリファンレスゲノムをダウンロードする。

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3/data/NA12878/alignment/NA12878.mapped.ILLUMINA.bwa.CEU.low_coverage.20121211.bam

#bam.bai
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3/data/NA12878/alignment/NA12878.mapped.ILLUMINA.bwa.CEU.low_

#fasta
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz.fai

#解凍
gzip -dv hs37d5.fa.gz

#リネーム
mv hs37d5.fa.gz.fai hs37d5.fa.fai

トランスポゾンの配列を準備する。テストデータにはALU、SVA、LINE1の配列が用意されている。その名前をlsコマンドで出力。

ls /full/path/to/MELTvX.X/me_refs/1KGP_Hg19/*.zip > mei_list.txt

exampleのトランスポゾン配列はzipで圧縮されている。

f:id:kazumaxneo:20170702132443j:plain

fastaで配列は記載され、bowtie2とsamtoolsでindexをつけられている。

f:id:kazumaxneo:20170702132557j:plain

準備ができたらランする。

java –jar MELT.jar Single -a –c 8 –h hs37d5.fa –l NA12878.mapped.ILLUMINA.bwa.CEU.low_coverage.20121211.bam –n add_bed_files/1KGP_Hg19/hg19.genes.bed –t mei_list.txt –w working_dir/

--single シングルゲノムの解析

perlで構築されているため、実行速度は遅めである。hg19の予測では、一晩走っていた。

指定したフォルダに結果は出力される。今回はALUS、SVA、LINE1の配列を指定したので、３つの配列の挿入部位がVCF4.1形式でコールされた。中身を確認する。

f:id:kazumaxneo:20170702113633j:plain

後半のフィールドが長くて見えづらい。前半のみ表示

SVA_final.vcf

f:id:kazumaxneo:20170702113751j:plain

LINE1_final.vcf

f:id:kazumaxneo:20170702114028j:plain

ALUは442コールあった。多すぎるので省略する。

トランスポソンタギングしたような株ではどうなるのかもテストしてみる。

検証中

注意点

FASTAファイル

トランスポゾン配列はfastaで指定する。名前はなんでもよいが、空白は許されていない。塩基配列は小文字、大文字とも認識可能で、60文字ごとに改行されていても１行に全部書かれていても動作する。ただしNがあってはいけない。MELTはATGCのみ認識する。また、トランスポゾン配列は１つずつファイルにする必要がある。マルチファスタ形式は許されていない。

BEDファイル

repeatのBEDファイルが必要である。そのため、UCSCのcustom track機能で

frepeat masker(11) trackをつけてダウンロードする方法が推奨されている。ヒトゲノムならば、UCSCのtable browser（Table Browser）から、GROUPS => Repeats、track => RepeatMaskerにチェックをつけてダウンロードする。

引用

An integrated map of structural variation in 2,504 human genomes.

Nature. 2015 Oct 1;526(7571):75-81. doi: 10.1038/nature15394.

Sudmant PH1, Rausch T2, Gardner EJ3, Handsaker RE4,5, Abyzov A6, Huddleston J1,7, Zhang Y8,9, Ye K10,11, Jun G12,13, Hsi-Yang Fritz M2, Konkel MK14, Malhotra A15, Stütz AM2, Shi X16, Paolo Casale F17, Chen J8,18, Hormozdiari F1, Dayama G19, Chen K20, Malig M1, Chaisson MJ1, Walter K21, Meiers S2, Kashin S4,5, Garrison E22, Auton A23, Lam HY24, Jasmine Mu X8,25, Alkan C26, Antaki D27, Bae T6, Cerveira E15, Chines P28, Chong Z20, Clarke L17, Dal E26, Ding L10,11,29,30, Emery S31, Fan X20, Gujral M27, Kahveci F26, Kidd JM12,31, Kong Y23, Lameijer EW32, McCarthy S21, Flicek P17, Gibbs RA33, Marth G22, Mason CE34,35, Menelaou A36,37, Muzny DM38, Nelson BJ1, Noor A27, Parrish NF39, Pendleton M38, Quitadamo A16, Raeder B2, Schadt EE38, Romanovitch M15, Schlattl A2, Sebra R38, Shabalin AA40, Untergasser A2,41, Walker JA14, Wang M33, Yu F33, Zhang C15, Zhang J8,9, Zheng-Bradley X17, Zhou W20, Zichner T2, Sebat J27, Batzer MA14, McCarroll SA4,5; 1000 Genomes Project Consortium, Mills RE19,31, Gerstein MB8,9,42, Bashir A38, Stegle O17, Devine SE3, Lee C15,43, Eichler EE1,7, Korbel JO2,17.

https://www.ncbi.nlm.nih.gov/pubmed/26432246?dopt=Abstract

2017-06-29

Reference-assisted assembly3　ABACAS

Reference-assisted assembly assembly contigのscaffolding primer 2009 Bioinformatics

ABACASはサンガー研の開発したReference-assisted assemblyなアセンブル法である。2009年に論文が発表された。サンガー研のACTやMummerの機能と連携しており、ランと結果の分析にはこの２つがインストールされている必要がある。その他の特徴として、primer3を使ったgap closingのためのprimer自動設計支援機能も備えている。

マニュアル

ABACAS

ポスター

http://abacas.sourceforge.net/sa4_BioMalpar_poster_abacas.pdf

ダウンロード

依存

Mumer
Artemis Comparison Tool: ACT)（ABCAS解析後に使うなら）
primer3（ABCAS解析後に使うなら）

配列を比較してソートするためにMummerのプログラムが必要である。ABACASは出力をACTに読み込んで参照したゲノムとそのまま比較できるように設計されているため、ACTも導入されていることが望ましい。

ACTは以前紹介した。

Nucmerも紹介予定（現在加筆中）

primer3はbrewでインストール可能である。

brew install primer3

ABACAS本体はHPからダウンロードできる（ABACASダウンロード直リンク）。

実行方法

ABACASは単一のperlプログラムである。アセンブルして作ったcontigと、参照するリファレンスを指定してランする。

perl abacas.1.3.1.pl -r ref.fa -q contig.fa -p nucmer

-r　reference sequence in a single fasta file
-q　contigs in multi-fasta format
-p　MUMmer program to use: 'nucmer' or 'promer'

ragoutのexampleとして提供されているMG1655-K12のcontigとリファレンス配列（MG1655-K12）を使用して、ABACASをランしてみた。

ACTを用いて、出力されたscaffoldsを参照したk12のゲノムと比較したのが以下である。 f:id:kazumaxneo:20170629131433j:plain

全体として、順序はK12通りになっている。簡易的にゲノムが構築された。ただし、今回は正解がわかっているので正しいと言えるが、実際の解析でリファレンス通りになったからといって正しいかどうかは補償の限りではない。

ABACASは、gapをcloseせずにprimer3を使いprimerを設計する機能も備えている。

-eをつけてgap間の繋がりを確認するprimerを設計する。

perl abacas.1.3.1.pl -r ref.fa -q contig.fa -p nucmer -e

ランの途中primerのパラメータについて質問される（赤い部分）。

***********************************************************************************

* ABACAS: Algorithm Based Automatic Contiguation of Assembled Sequences *

* *

***********************************************************************************

Primer design selected,... escaping contig ordering

Primers without ordering..

/Users/user/local/ragout-2.0-macos-x86_64/examples/E.Coli/references/MG1655-K12.fasta

Enter Optimum Primer size (default 20 bases):20

Enter Minimum Primer size (default 18 bases):18

Enter Maximum Primer size (default 27 bases):30

Enter Optimum melting temperature (Celcius) for a primer oligo (default 60.0C):60.0C

Enter Minimum melting temperature (Celcius) for a primer oligo (default 57.0C):55.0C

Enter Maximum melting temperature (Celcius) for a primer oligo (default 63.0C):65.0C

Enter flanking region size (default 1000 bases): 1000

Enter minimum product size produced by primers (default =flanking size):1000

Enter maxmimum product size produced by primers (default 7000):7000

Enter minimum GC content in primers (default 20%):20

Enter optimum GC content in primers (default 50%):50

Enter maximum GC content in primers (default 80%):80

Enter GC clamp (default 1):1

Enter size of region to exclude at the end of contigs (default 100 bases):100

Please wait... extracting target regions ...

ただし、上記のデータでは出力がゼロになった。原因はgapをゼロと認識していることになる（実際はgapはゼロでない。-eなしでランすると、.fasta.gapsにcontigの数とほぼ同じ数のgapが認識され、scaffoldsも構築される）。

引用

ABACAS: algorithm-based automatic contiguation of assembled sequences

Assefa S, Keane TM, Otto TD, Newbold C, Berriman M.

Bioinformatics. 2009 Aug 1;25(15):1968-9

2017-06-29

フォーマット変換 bam=> Fastq　アライメントされなかったリードの取り出し方など

format conversion bam/sam

いくつか方法があるのでまとめておく。

追記

文章修正

1、bam2fastq

公式サイトでは今後は使用非推奨で、代わりにpicardを使ってと記載されています。これまでのデータであれば問題ないと思われますが、注意して使ってください。

ダウンロード

公式サイト Genomic Services Laboratory at HudsonAlpha

ダウンロードして解凍し、解凍したディレクトリでmakeすれば使える。

make

ラン

シングルリード

bam2fastq input.bam -o input.fq

-o Specifies the name of the FASTQ file(s) that will be generated

ペアリード

bam2fastq input.bam -o input#.fq

input_1.fqとinput_2.fqが出力される。

アンマップペアリードの出力

bam2fastq input.bam -o input#.fq --no-aligned --force --strict

--aligned または --no-aligned　 Reads in the BAM that are aligned will (will not) be extracted. [Default: extract aligned reads]
--force　Create output files specified with --output, overwriting existing files.
--strict　 Keep bam2fastq's processing to a minimum, assuming that the BAM strictly

２、bedtools

シングル

bedtools bamtofastq -i input.bam -fq single.fastq

ペアリード

bedtools bamtofastq -i R1R2.bam -fq R1.fastq -fq2 R2.fastq

-fq2　FASTQ for second end. Used if BAM contains paired-end data. BAM should be sorted by query name is creating paired FASTQ.

３、picard

入力のbamと出力のfastqを指定してランする。

Picard SamToFastq  INPUT=R1R2.bam F=R1.fq F2=R2.fq

４、samtools

samtools fastq input.bam > input.fq

bam/samからfastaを抽出。

samtools fasta input.bam > input.fa

他にbamtoolsでも可能だが速度は劣る。

1-4のツールがなければ、brewで導入してください。

引用

BEDTools: a flexible suite of utilities for comparing genomic features.

Quinlan AR1, Hall IM.

Bioinformatics. 2010 Mar 15;26(6):841-2. doi: 10.1093/bioinformatics/btq033. Epub 2010 Jan 28.

https://www.ncbi.nlm.nih.gov/pubmed/20110278

BCFtools/RoH: a hidden Markov model approach for detecting autozygosity from next-generation sequencing data.

Narasimhan V1, Danecek P1, Scally A2, Xue Y1, Tyler-Smith C1, Durbin R1.

Bioinformatics. 2016 Jun 1;32(11):1749-51. doi: 10.1093/bioinformatics/btw044. Epub 2016 Jan 30.

https://www.ncbi.nlm.nih.gov/pubmed/26826718

The Sequence Alignment/Map format and SAMtools.

Li H1, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; 1000 Genome Project Data Processing Subgroup.

Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8.

https://www.ncbi.nlm.nih.gov/pubmed/19505943

2017-06-28

フォーマット変換 GenBank => FASTA

format conversion

2020 6/4 構成を変更

１、EMBOSSのseqretコマンドを使う（インストール）。

ゲノムのGenbankファイルを読み込んでfasta出力する。複数配列あるならmulti fasta出力される。

seqret input.gbk out.fasta

正規表現をサポートしているので、うまくワイルドカードを使えば大量のgenebakファイルから同時にfastaを抜き出すこともできる（正し*gbkと打っても受け付けない）。

２、BEDOPSのconvert2bedを使う。

> convert2bed -h

$ convert2bed -h

convert2bed

version: 2.4.37

author: Alex Reynolds

Usage:

$ convert2bed --input=fmt [--output=fmt] [options] < input > output

Convert BAM, GFF, GTF, GVF, PSL, RepeatMasker (OUT), SAM, VCF

and WIG genomic formats to BED or BEDOPS Starch (compressed BED)

Input can be a regular file or standard input piped in using the

hyphen character ('-'):

$ some_upstream_process ... | convert2bed --input=fmt - > output

Input (required):

--input=[bam|gff|gtf|gvf|psl|rmsk|sam|vcf|wig] (-i <fmt>)

Genomic format of input file (required)

Output:

--output=[bed|starch] (-o <fmt>)

Format of output file, either BED or BEDOPS Starch (optional, default is BED)

Other processing options:

--do-not-sort (-d)

Do not sort BED output with sort-bed (not compatible with --output=starch)

--max-mem=<value> (-m <val>)

Sets aside <value> memory for sorting BED output. For example, <value> can

be 8G, 8000M or 8000000000 to specify 8 GB of memory (default is 2G)

--sort-tmpdir=<dir> (-r <dir>)

Optionally sets [dir] as temporary directory for sort data, when used in

conjunction with --max-mem=[value], instead of the host's operating system

default temporary directory

--starch-bzip2 (-z)

Used with --output=starch, the compressed output explicitly applies the bzip2

algorithm to compress intermediate data (default is bzip2)

--starch-gzip (-g)

Used with --output=starch, the compressed output applies gzip compression on

intermediate data

--starch-note="xyz..." (-e "xyz...")

Used with --output=starch, this adds a note to the Starch archive metadata

--help | --help[-bam|-gff|-gtf|-gvf|-psl|-rmsk|-sam|-vcf|-wig] (-h | -h <fmt>)

Show general help message (or detailed help for a specified input format)

--version (-w)

Show application version

GFF=> BED

convert2bed --input=gff < input.gff3 > output.bed

GFF3にも対応。

３、Biostarsのスレッドで紹介されているスクリプトを使う。

Challenge: Convert GenBank to Fasta without bioperl, without emboss, or any other dependencies

たとえばgenbank2fasta.plとして保存し、以下のように実行

perl genbank2fasta.pl input.gbff > output.fa

４、オンラインのツールを使う。

引用

Biostars

Challenge: Convert GenBank to Fasta without bioperl, without emboss, or any other dependencies

2017-06-28

Reference-assisted assembly 2 RACA

assembly Reference-assisted assembly contigのscaffolding 2013 PNAS

RACA

Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。

論文では、RACAを使いGAGEのゴールデンデータセットをアセンブルしたデータや、Tibetan antelope（ウシ科のチルー）のアセンブルデータが使われている。Tibetan antelopeの1,434のcontigをRACAで統合してウシゲノムと比較すると、60がクロモソームとマッチし、さらにそのうちの16はクロモソーム全体に渡ってマッチしたと書かれている。リファレンスが十分似ていれば、クロモソーム全体の再構成も不可能ではないようだ。

ダウンロードリンク

::::: RACA Supplementary Website :::::

RACA source v0.9.1.1 (直リンク)をダウンロードした。このHPではGAGEのアセンブルデータもダウンロードできるようになっている。

インストール

makeするだけで終わる。

make

終わるとRun_RACA.plなどができる。

実行方法

ランはconfig.fileを元に行う。

Run_RACA.pl configuration file>

テストデータをランしてみる。HPのTibetan antelope (TA) dataをダウンロードする。ダウンロードが終わったら解凍し、中に入る。

はじめにmakeしてparams.txtを作る。

cd TAdata/
make

params.txtができる。

以下のことが書かれていた。色々準備しておく必要があるみたいだ。

INSERTLIBFILE=/Volumes/3TB3/TAdata/insertsize_sd.txt # File that has the lengths of insert libraries and their means and standard deviations estimated from read mapping.

INSERTSIZETHR=1000 #Insert library size threshold for the normal directions of two end reads

READMAPPINGDIR=/Volumes/3TB3/TAdata/TAreads # Input directory that has the paired-end read mapping data

READMAPPINGLIB=/Volumes/3TB3/TAdata/readmapping_lib.txt #File that has the insert library name of each paired-end read mapping file in the $READMAPPING directory.

NCPUS=10 # The number of processes for parallel execution

SCFSIZEFILE=/Volumes/3TB3/TAdata/panHod2.size # Size of target scaffolds

SCFPREFIX=Scaffold # Prefix of target scaffold name

SCFSEQFILE=/Volumes/3TB3/TAdata/panHod2.fa #scaffold sequences

REFSPC=umd3 # Reference species

TARSPC=panHod2 # Target species

WINDOWSIZE=1000 #Window size for estimating paired-end read coverage

OUTPUTDIR=Out_RACA # Output directory

RESOLUTION=150000 # Block resolution (bp)

MIN_INTRACOV_PERC=5 # The minimum percentage in a null distribution of P_ia(i,j) scores

IGNORE_ADJS_WO_READS=0

TREEFILE=/Volumes/3TB3/TAdata/tree.txt # Newick tree file

BENADJFILE=/Volumes/3TB3/TAdata/reliable_adjs.txt # Benchmark adjacency file

CONFIGSFSFILE=/Volumes/3TB3/TAdata/config.SFs # Config and make files for syntenic fragment construction

MAKESFSFILE=/Volumes/3TB3/TAdata/Makefile.SFs # Config and make files for syntenic fragment construction

READMEの説明では

2.1 Configuration file

RACA requires a single configuration file as a parameter. The configuration file has all parameters that are needed for RACA.

Example dataset below has a sample configuration file 'params.txt' and all other parameter files which are self-explanatory (also refer to the data directory.)

Please read carefully the description of each configuration variable and modify them as needed.

とあるが、詳しく書かれていない。とりあえず変更ないままランする。テストデータにあるparams.txtを選択し、

Run_RACA.pl params.txt

でジョブをスタートさせた。

ランタイムが大変長いため、途中で止めた。

引用

Reference-assisted chromosome assembly

Jaebum Kima,b, Denis M. Larkinc, Qingle Caid, Asand, Yongfen Zhangd, Ri-Li Gee, Loretta Auvilf,g, Boris Capitanuf,g, Guojie Zhangd, Harris A. Lewina,h,, and Jian Maa,i

Proc Natl Acad Sci U S A. 2013 Jan 29;110(5):1785-90.

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

トランスポゾン検出ツール2　ngs_te_mapper

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

トランスポゾン検出ツール1　MELT

Reference-assisted assembly3　ABACAS

フォーマット変換 bam=> Fastq　アライメントされなかったリードの取り出し方など

フォーマット変換 GenBank => FASTA

Reference-assisted assembly 2 RACA