全ゲノムのヌクレオチドを可視化する FluentDNA

　研究者がゲノムアセンブリを裸で見ることはほとんどない。その代わりに、DNA配列の属性は、統計、アノテーション、高レベルの要約によって媒介される。ここでは、全ゲノムアセンブリーの裸の配列をズーム可能なインターフェースで可視化するソフトウェアを紹介する。これにより、他の注釈がなくても、色のパターンの変化によって染色体の構造や汚染を肉眼で検出することができる。また、アノテーションがある場合は、配列の上に表示することもできる。また、2 つのゲノムを並べてアラインメントし、その違いをヌクレオチド単位で強調して表示することもできる。FluentDNAは、全ゲノムアセンブリ、アノテーション、アラインメントを直接可視化することで、品質管理、仮説の立案、結果の伝達などに役立てることができる。

Methodより

ピクセルとしてのヌクレオチド
 ヌクレオチドの配列は、4つの塩基を4つの色で表した一連のピクセルとして表現することができる。理想的なカラーパレットは、次のような基準を満たす；1）高コントラスト、（2）色弱者に優しい、（3）典型的なヌクレオチド組成は、20分以上見ても不快感がないこと（つまり、緑と青が多いこと）（Kaya and Epps, 2004; Mehta and Zhu, 2009）。

一次元的な位置関係を二次元的に表現する
長いヌクレオチド配列を2次元で意味のある形で可視化するためには、可視化の2次元での局所性が1次元のソースデータの局所性に近似している必要がある。これを実現する最も簡単な方法は、頻繁に改行された直線的な配列を、ネストしたタイルのセットに並べることである。このタイルレイアウトでは、水平方向に隣接するピクセルはソースデータ内の真の隣人であり、垂直方向の隣人はソースデータ内で列幅のサイズだけ間隔を空けている( 論文図２)。ここでは「Ideogram Layout」と呼んでいるが、これは空間充填曲線（wiki）を使ったものである。これは、1次元の連続した経路を折り曲げて2次元（またはそれ以上）の領域を埋めるフラクタル図形である（Bially, 1969; Haverkort and van Walderveen, 2010）。ペアノ曲線（wiki）は、螺旋の螺旋で構成されており、その原点に最も近い利用可能な空間を占めるように、絶えず自分自身に巻き戻ってくる。このプロセスは再帰的であるため、あらゆるスケールで局所性が保たれる。ペアノ曲線は、タイル状の配列よりも、間期の核におけるヌクレオチド配列の配列に近似している（Lieberman-Aiden et al. しかし、人間の目では、ヌクレオチド配列を正確にトレースすることは不可能であり、その実用性は、主にデータの大まかな概要に限られる。

インストール

macosでテストした。windows向けリリースも用意されている。

Github

リリースからwindowsかmacのパッケージをダウンロードする。

https://github.com/josiahseaman/FluentDNA/releases

テストラン

１、ゲノムのfasta (multi-FASTA)

cd FluentDNA/
./fluentdna --fasta=example_data/Human\ selenoproteins.fa --runserver

http://localhost:8000/Human%20selenoproteins/ にアクセスする。

表示された。使ったHuman selenoproteins.faはmulti-FASTAのファイルになる。

f:id:kazumaxneo:20210628120016p:plain

左上のボタンから自由に拡大縮小、リセットが可能。画面をクリックしても拡大される。

f:id:kazumaxneo:20210628120003p:plain

スクロールは、画面をドラッグするか、右上のナビゲータパネルの赤枠を移動させる。

２、GFFのアノテーション付き

GFFファイルも指定すると、遺伝子アノテーションを含めることができる。

./fluentdna --fasta=example_data/gnetum_sample.fa --ref_annotation=example_data/Gnetum_sample_genes.gff

現在は、遺伝子のintronとexonを表示するように設定されている。

３、マルチプルシーケンスアラインメント

マルチプルシーケンスアライメントを表示するには、--layout=alignmentオプションを使用して、各muti-fastaファイルのをアライメントの1行として扱うようにFluentDNAに指示する必要がある。

f:id:kazumaxneo:20210629111007p:plain

--fasta=でフォルダを指定する。

./fluentdna --layout=alignment --fasta=example_data/alignments --outname="Example 7 Gene Families from Fraxinus"

f:id:kazumaxneo:20210629110806p:plain

４、2つのゲノム（AとB）のアラインメント

Github参照

引用
FluentDNA: Nucleotide Visualization of Whole Genomes, Annotations, and Alignments

Josiah Seaman, Richard J. A. Buggs

Front. Genet., 30 April 2020

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

全ゲノムのヌクレオチドを可視化する FluentDNA