macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

de novo transcriptome assemblyの適切なk-merレンジを推定する KREATION

 de Bruijn graphを使ったde novoトランスクリプトームのアセンブルでは、単一のk- merより異なるk merのアセンブル結果を統合した方が感度が増す。KREATIONは関連するアセンブリの比較クラスタリングを使用して、追加のkmerアセンブリの重要性を推定するツール。 それ以上のアセンブリが必要でないk値を予測する。 

 

インストール

依存

本体 Github

git clone https://github.com/SchulzLab/KREATION
cd KREATION/
python KREATION.py --help

 >   python KREATION.py --help 

$ python KREATION.py --help

Usage: KREATION.py [options]

 

Options:

  -h, --help            show this help message and exit

  -c CONFIG_FILE, --config=CONFIG_FILE

                        path to the config file (only text file)

  -s SS, --step=SS      kmer step size for the assembly process (default=2)

  -o OUT, --output=OUT  path to the output directory, directory will be

                        created if non-existent

  -r READ_LENGTH, --read=READ_LENGTH

                        read length (required)

  -t CUT_OFF, --threshold=CUT_OFF

                        cut_off for d_score

uesaka-no-Air-2:KREATION kazumaxneo$ 

 

 

ラン

ランにはconfig_fileが必要となる。cloneで一緒にダウンロードされてくるconfig_fileは以下のようになっている。

$ cat config.txt 

#Program Name

oases_pipeline_2.py

#Output file name

transcripts.fa

#Minimum K

-m 21

#Rest of the command

-d "/path-to-the-fasta-file/MAQC_Combined.fasta_corrected.fa" -p ""

 GItの説明では、上のconfig fileの構成は

  • Line 1: Name of the program to be run
  • Line 2: Output file name from the assembly
  • Line 3: paramater name and the value of the min kmer
  • Line 4: Rest of the command
  • Line 5: parameter name for the max kmer (leave as blank if there is none)

となっている。最後の行がfastqのパスとなる。

 

テストデータをダウンロードする。

https://www.ncbi.nlm.nih.gov/sra/SRX016367%5Baccn%5D

SOAPdenovo-Transを動かし、評価する。まずSOAPdenovoのconfigファイルを作る。

cat > SOAP.config <<TEXT 
max_rd_len=150
[LIB] avg_ins=192
reverse_seq=0
asm_flags=3
q1=R1_pairedout.fastq
q2=R2_pairedout.fastq
TEXT

 

入れ子になってややこしいが、KREATIONのconfigファイルを作る。KREATIONのconfig中でSOAPdenovoのconfigファイルを指定する。

以下のように修正する。

#Program Name
SOAPdenovo-Trans-127mer all
#Output file name
transcripts.contig
#Minimum K
-K 21
#Rest of the command #SOAPのcofigの場所
-s /path-to-SOAP_config-file/example.config -p 12 -o transcripts

 

準備ができたらラン。 

 python KREATION.py -c config_file.txt -o complete/path/outputDirectory -s 2 -r 35

 

 正常に解析できていれば、出力ディレクトリに以下の3つのファイルができる。

  • Assembly (contains the assembly generated from each kmer)
  • Cluster (contains the clustering results)
  • Final (contains the final assembly and a report file)

 

SOAPdenovo-Transのランでエラーが出る。SOAPdenovo-Trans単独では全く同じパラメータでランできるので、KREATIONの設定で不備があると思われる。わかったら追記します。

 

公式マニュアルでは、Oasisでの流れも記載しています。

 

引用

Informed kmer selection for de novo transcriptome assembly

Dilip A. Durai and Marcel H. Schulz

Bioinformatics. 2016 Jun 1; 32(11): 1670–1677.