macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

タンデムリピートのアノテーションを行う TRASH

 

 ロングリードDNAシーケンスの登場により、多くの真核生物のセントロメアに見られるメガベーススケールのサテライトリピート配列など、高度に反復したゲノム領域の完全なアセンブリが初めて可能になった。このような反復領域のアセンブリにより、高次反復パターンを含むde novoアノテーションの必要性が生じる。タンデムリピートをアノテーションするためには、モノマー配列に関する予備知識がなくても、多様なゲノム配列に広く適用できる方法が必要である。

 Tandem Repeat Annotation and Structural Hierarchy (TRASH)は、塩基配列中のタンデムリピートを同定・マッピングするツールである。TRASHはFASTAアセンブリファイルを解析し、リピートが占める領域を特定し、その領域と高次構造を正確にマッピングする。セントロメア研究へのTRASHの適用性と拡張性を示すために、最近発表されたシロイヌナズナのCol-CENゲノムとヒトCHM13ゲノムの全塩基配列に本方法を適用した。TRASHは:https://github.com/vlothec/TRASH で自由に利用でき、Linux上でサポートされている。 

 

 

インストール

ubuntu18でテストした。

依存

Linux OS (for Windows see below)
R-4.1.3 or newer (any R.4+ version should work)

Github

https://github.com/vlothec/TRASH

mamba create -n TRASH -c conda-forge r-base=4.1.3 zlib
conda activate TRASH

git clone https://github.com/vlothec/TRASH
cd TRASH
chmod +x TRASH_install.sh
TRASH_install.sh #link #--defフラグを追加すると、新しいパッケージをインストールする際にデフォルトのRライブラリパスを使用

 

 

実行方法

入力として少なくとも1つのfastaファイル(拡張子が".fa"、".fna "または".fasta ")が必要。複数のファイルを別々の引数として与えることも、配列を1つのfastaファイルにマージして与えることもできる。

TRASH_run.sh assembly.fa --o out

 

テストラン

CHM13ヒトゲノムの10番染色体の座標39,050,443:39,150,442 bpがテスト用に配置されている。テスト配列にはいくつかのαサテライトタンデムリピート配列が含まれる。

cd TRASH/
TRASH_run.sh example_run/CP068268_39050443_39150442.fa --o out

 

out/

 

all.repeats.from.CP068268_39050443_39150442.fa.csv; "同定されたタンデムリピートモノマー、その開始位置と終了位置、クラス、配列、ストランド情報

他にも、タンデムリピートを含む領域の表などが出力される。このファイルには、配列テンプレートが提供されている場合は、コンセンサス配列、モノマーサイズ、クラス(ファミリー)の情報が含まれている。

 

plots/

ファイル中の座標を用いて同定されたリピートモノマーを、解析されたFasta配列に対してプロットしたCircosプロット。

 

  • 予測されるリピートファミリー(ここでは'クラス'と呼ぶ)の情報を含む.csvファイルを追加で提供できる。
  • 高次リピート(HOR)解析のため、HORを計算することができる。

引用

TRASH: Tandem Repeat Annotation and Structural Hierarchy 
Piotr Wlodzimierz, Michael Hong, Ian R Henderson
Bioinformatics, Volume 39, Issue 5, May 2023