de Bruijn graphを使ったde novoトランスクリプトームのアセンブルでは、単一のk- merより異なるk merのアセンブル結果を統合した方が感度が増す。KREATIONは関連するアセンブリの比較クラスタリングを使用して、追加のkmerアセンブリの重要性を推定するツール。 それ以上のアセンブリが必要でないk値を予測する。
インストール
依存
本体 Github
git clone https://github.com/SchulzLab/KREATION
cd KREATION/
python KREATION.py --help
> python KREATION.py --help
$ python KREATION.py --help
Usage: KREATION.py [options]
Options:
-h, --help show this help message and exit
-c CONFIG_FILE, --config=CONFIG_FILE
path to the config file (only text file)
-s SS, --step=SS kmer step size for the assembly process (default=2)
-o OUT, --output=OUT path to the output directory, directory will be
created if non-existent
-r READ_LENGTH, --read=READ_LENGTH
read length (required)
-t CUT_OFF, --threshold=CUT_OFF
cut_off for d_score
uesaka-no-Air-2:KREATION kazumaxneo$
ラン
ランにはconfig_fileが必要となる。cloneで一緒にダウンロードされてくるconfig_fileは以下のようになっている。
$ cat config.txt
#Program Name
oases_pipeline_2.py
#Output file name
transcripts.fa
#Minimum K
-m 21
#Rest of the command
-d "/path-to-the-fasta-file/MAQC_Combined.fasta_corrected.fa" -p ""
GItの説明では、上のconfig fileの構成は
- Line 1: Name of the program to be run
- Line 2: Output file name from the assembly
- Line 3: paramater name and the value of the min kmer
- Line 4: Rest of the command
- Line 5: parameter name for the max kmer (leave as blank if there is none)
となっている。最後の行がfastqのパスとなる。
テストデータをダウンロードする。
https://www.ncbi.nlm.nih.gov/sra/SRX016367%5Baccn%5D
SOAPdenovo-Transを動かし、評価する。まずSOAPdenovoのconfigファイルを作る。
cat > SOAP.config <<TEXT
max_rd_len=150
[LIB] avg_ins=192
reverse_seq=0
asm_flags=3
q1=R1_pairedout.fastq
q2=R2_pairedout.fastq
TEXT
入れ子になってややこしいが、KREATIONのconfigファイルを作る。KREATIONのconfig中でSOAPdenovoのconfigファイルを指定する。
以下のように修正する。
#Program Name
SOAPdenovo-Trans-127mer all
#Output file name
transcripts.contig
#Minimum K
-K 21
#Rest of the command #SOAPのcofigの場所
-s /path-to-SOAP_config-file/example.config -p 12 -o transcripts
準備ができたらラン。
python KREATION.py -c config_file.txt -o complete/path/outputDirectory -s 2 -r 35
正常に解析できていれば、出力ディレクトリに以下の3つのファイルができる。
- Assembly (contains the assembly generated from each kmer)
- Cluster (contains the clustering results)
- Final (contains the final assembly and a report file)
SOAPdenovo-Transのランでエラーが出る。SOAPdenovo-Trans単独では全く同じパラメータでランできるので、KREATIONの設定で不備があると思われる。わかったら追記します。
公式マニュアルでは、Oasisでの流れも記載しています。
引用
Informed kmer selection for de novo transcriptome assembly
Dilip A. Durai and Marcel H. Schulz
Bioinformatics. 2016 Jun 1; 32(11): 1670–1677.