macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

 

 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの完全な染色体、完全なセントロメア、タンデムデュプリケーション、その他のヘテロクロマティックアレイが利用でき、より複雑なリピート構造や 遺伝的変異を体系的に解析することができるようになった。これらの構造の大きさと複雑さは、しばしば、3つの理由から従来のドットプロット解析では対応ない;1) 現在の可視化手法は、主に完全一致またはk-mer一致に基づいており、セントロメアに見られる複雑な高次のリピートや、これらの大きなリピート間に予想されるミスマッチなどの複雑な高次の繰り返し構造には適していない。2)ドットプロットは、メガベースの配列データからなるタンデムアレイの解像度は限られており、しばしば黒い四角になってしまい ドットプロットは、メガベースの配列データからなるタンデムアレイでは解像度が低く、しばしば黒い四角になり、リピートのサイズと存在以外の情報はほとんど伝わらない。タンデムアレイで完全に一致するものを特定する場合、可能なペアワイズマッチの数が急激に増加する。3)タンデムアレイ(MUMmerなど)で完全に一致するものを特定する場合、可能なペアワイズマッチの数が急速に増加し、より分岐したものを比較するために小さな最小マッチ長を使用すると、この問題はさらに悪化する。
 本研究では、StainedGlassを紹介する。このツールは、小さなk-merではなく配列アラインメントに基づいて同一性ヒートマップを生成するもので、簡単で拡張性があり、カスタマイズ可能なワークフローを採用しており、インタラクティブに使用できるだけでなく、出版物用の図を作成することもできます。このツールは、ゲノム全体のリピート構造の研究にも、特定の領域に絞って複雑な高次のリピート構造の特徴を調べるのにも適用できます。最近の8番染色体の解析では、この手法のプロトタイプを開発し、2Mbpセントロメアの高次反復構造をアイデンティティ・ヒートマップとして表示しました。このプロトタイプにより、セントロメアにおける高次の対称性と層状構造の発見が促進され、セントロメアの進化に関するより洗練されたモデルの開発や、コピー数変動のホットスポットの発見に役立ちました(Logsdon et al., 2021)。

 

 

Github

mamba create -n snakemake -c conda-forge -c bioconda snakemake -y
conda activate snakemake
git clone https://github.com/mrvollger/StainedGlass.git
cd StainedGlass/

 

 

テストラン

StainedGlass/config/config.yamlを編集する(テストランでは編集は不要)。テストゲノムは.test/という隠しディレクトリに収納されている。実際の解析でStainedGlass/直下にゲノムを置くなら、.test/を消してinput.fastaとすれば認識する。

f:id:kazumaxneo:20210831013305p:plain

パラメータはconfig/README.mdで詳しく書かれています。

 

実行する。

cd StainedGlass/
snakemake --use-conda --cores 24

出力

f:id:kazumaxneo:20210831011447p:plain

results/{sample}.{d+}.{d+}.bedには、パイプラインで同定されたすべてのアラインメントが格納されている。未処理のアラインメントを含むbamファイルも含まれる。複数の染色体配列などを提供した場合は各配列ごとのフォルダができて、その中に出力される。

 

cofigの内容はオプションを立てることで上書きできる。

snakemake --use-conda --cores 24 --config sample=test2 fasta=/some/fasta/path.fa

 

 

 

特定の領域の画像を生成するには、make_figuresを追加する。最大で40Mbpの合計5つの領域を比較するのに適している。

snakemake --use-conda --cores 24 make_figures

 

f:id:kazumaxneo:20210831133540p:plain

T2Tアセンブリのchr8の3Mbの領域を比較。

 

 

ゲノム全体をインタラクティブに可視化するには、HiGlassプログラムとWebブラウザを使う。

pip install higlass-manage #*1
higlass-manage view results/small.5000.10000.strand.mcool

 テストデータ

f:id:kazumaxneo:20210831012228p:plain

シロイヌナズナ

f:id:kazumaxneo:20210831015343p:plain

 

 

高解像度のインタラクティブな視覚化のパラメータ。各ビンにマッピングされたリードの数に比例して色が変わる。計算時間はより多くかかる。

snakemake --use-conda --cores 24 cooler_density --config window=32 cooler_window=100

シロイヌナズナ

f:id:kazumaxneo:20210831020835p:plain

 

 

コマンドの使い方は論文中でも説明されています。確認して下さい。

引用

StainedGlass: Interactive visualization of massive tandem repeat structures with identity heatmaps
Mitchell R. Vollger, Peter Kerpedjiev,Adam M. Phillippy, Evan E. Eichler

bioRxiv, Posted August 21, 2021

 

HiGlass: web-based visual exploration and analysis of genome interaction maps
Peter Kerpedjiev, Nezar Abdennur, Fritz Lekschas, Chuck McCallum, Kasper Dinkla, Hendrik Strobelt, Jacob M. Luber, Scott B. Ouellette, Alaleh Azhir, Nikhil Kumar, Jeewon Hwang, Soohyun Lee, Burak H. Alver, Hanspeter Pfister, Leonid A. Mirny, Peter J. Park & Nils Gehlenborg
Genome Biology volume 19, Article number: 125 (2018)

 

*1

pip install higlass-pythonも追加で実行した。