テロメア長を推定する telseq - macでインフォマティクス

　テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質（論文より　ref.1）から構成される。テロメラーゼまたは代替の経路が存在しない場合、テロメアは漸進的に削減を受け、最終的にはreplicative senescence（分裂寿命）またはアポトーシスに至る。したがって、テロメアの長さは、複製のヒストリーと複製可能性の指標であり、ヒトの健康と病気にとって非常に重要な2つの特徴である（ref.2）。

　テロメア長測定の標準的な方法は、（i）細胞サンプルの末端制限酵素断片（ref.3）の平均長（mTRF）およびテロメアの長さ分布のサザンブロット解析による測定; （ii）染色体と細胞との間のテロメア長のバリエーションを蛍光in situハイブリダイゼーション（FISH）技術で調べる方法。これにはQ-FISH（ref.4）およびFlow-FISH（ref.5）が含まれる。（iii）qPCRベースのテロメアデオキシリボ核酸（DNA）含量測定（compared to single gene DNA）（ref.6）。

　次世代シークエンシングは、ゲノム情報を計算的に得る機会を提供している。ショットガンシーケンシングデータは、ゲノムの他の領域と同様に、テロメアからのシーケンシングリードを含む。しかしながら、テロメアに関するほとんどの情報は、これらのリードとリファレンス配列との標準的なアライメントから得ることができない。これは、なぜならテロメア領域のリピートによりリードの起点が確実に割り当てられないためであり、また、ヒトリファレンス配列（GRCh37を構築する）において、ほとんどの染色体の末端は、未知のヌクレオチドを表すNsのストレッチで構成されているためである。

　以前の研究（ref.7）は、テロメア長に関する情報が、リード中に見出されるテロメアモチーフコピー（TTAGGGまたはCCCTAA）の数に含まれることを示した。 Parker et al （ref.8）はこの考えをガンサンプルに適用した。しかしながら、ガン試料は典型的にはaneuploidyに苦しみ、qPCRのような方法による結果の検証を複雑にする（ユニットコピー領域に対する正規化に依存する）。これは、正常組織の対照群と比較した（ref.8）の測定値が、ゲイン、変化なし、またはロスのいずれかとしてしか収束されない、すなわち低分解能の理由であり得る。さらに、サンプルの大部分は平均年齢7.5歳の小児由来であり、年齢とそれらの配列に基づくテロメア長測定との間の関係を示さなかった。

　ここでは、テロメア反復配列とテロメアを含むリードの関係をさらに調べ、全ゲノムシーケンシングデータに基づいてテロメア長を推定するソフトウェアについて説明する。著者らはイルミナの100bpペアエンド全ゲノムシーケンシングとサザンブロットmTRFの両方を用いているTwinsUKのコホート（ref.9 link）の260の白血球サンプル（27〜74歳、平均年齢51歳）について実証する。また、全ゲノムおよびエクソームデータの両方を有する1000ゲノムプロジェクト（ref.10）の96サンプルを調べる。

インストール

mac os10.12で動作テストを行った。

ビルド依存

bamtools library
A modern version of GCC (version 4.8 or above)

本体　Github

#ビルド済みのバイナリが含まれているので、それを使う
git clone https://github.com/zd1/telseq.git
cd telseq/bin/mac/

#Dockerfileも用意されており、ビルドしてdocker環境で使用できる

> ./telseq

$ ./telseq

Program: TelSeq

Version: 0.0.1

Contact: Zhihao Ding [zd1@sanger.ac.uk]

Usage: telseq [OPTION] <in.1.bam> <in.2.bam> <...>

Scan BAM and estimate telomere length.

<in.bam> one or more BAM files to be analysed. File names can also be passed from a pipe,

with each row containing one BAM path.

-f, --bamlist=STR a file that contains a list of file paths of BAMs. It should has only one column,

with each row a BAM file path. -f has higher priority than <in.bam>. When specified,

<in.bam> are ignored.

-o, --output_dir=STR output file for results. Ignored when input is from stdin, in which case output will be stdout.

-H remove header line, which is printed by default.

-h print the header line only. The text can be used to attach to result files, useful

when the headers of the result files are suppressed.

-m merge read groups by taking a weighted average across read groups of a sample, weighted by

the total number of reads in read group. Default is to output each readgroup separately.

-u ignore read groups. Treat all reads in BAM as if they were from a same read group.

-k threshold of the amount of TTAGGG/CCCTAA repeats in read for a read to be considered telomeric. default = 7.

Testing functions

------------

-r read length. default = 100

-z use user specified pattern for searching [ATGC]*.

-e, --exomebed=STR specifiy exome regions in BED format. These regions will be excluded

-w, consider BAMs in the speicfied bamlist as one single BAM. This is useful when

the initial alignemt is separated for some reason, such as one for mapped and one for ummapped reads.

--help display this help and exit

Report bugs to zd1@sanger.ac.uk

実行方法

telseq input.bam -o output

#複数
telseq -H a.bam b.bam c.bam > output

bamはリストとしても入力できます（GIthub参照）。

出力 (GIABのNA12878を使用)

f:id:kazumaxneo:20181128095657j:plain

詳細はGithub READMEのOutput file formatに書いてあります。

引用

Estimating telomere length from whole genome sequence data
Zhihao Ding, Massimo Mangino, Abraham Aviv, UK10K Consortium, Tim Spector, Richard Durbin

Nucleic Acids Res. 2014 May 1; 42(9): e75