macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングトランスクリプトームリードから遺伝子融合を高精度に検出する Genion

 

 次世代シーケンサーの登場により、様々なトランスクリプトーム研究が行われるようになった。その中でも、多くのがん種で観察され、発がん性が疑われている遺伝子融合は、広く研究されているテーマである。遺伝子融合は、2つの遺伝子が近接して配置され、融合した転写産物をもたらすゲノム構造上のイベントの結果である。これは、転写プロセス中あるいは転写後に作られる融合転写産物とは異なるものである。これらのキメラ転写産物は、リードスルー転写産物やトランススプライシング転写産物としても知られている。ショートリードを用いた遺伝子融合検出はよく研究されている問題であり、多くの手法が開発されてきた。しかし、これらの手法の感度は、技術、特に短いリード長によって制限されている。ロングリードシーケンス技術の進歩により、低コストで長いトランスクリプトームリードを生成することができるようになった。トランスクリプトームロングリードシーケンスは、遺伝子融合検出のためのショートリード技術の欠点を克服するユニークな機会を提供する一方で、新たな課題ももたらしている。
 高感度で高速な遺伝子融合検出法であり、リードスルーイベントも検出可能なGenionを発表する。最近導入されたロングリード遺伝子融合発見手法であるLongGFと、シミュレーションおよび実データセット上で比較した。シミュレーションデータ上では、Genionは遺伝子融合を正確に同定し、融合リードを検出するためのクラスタリング精度はLongGFよりも優れていた。さらに、乳がん細胞株MCF-7を用いた結果、Genionは実験的に検証されたすべての遺伝子融合を正しく同定することができた。
 Genionは正確な遺伝子融合コーラーである。Genion は C++で実装され、https://github.com/vpc-ccg/genion で利用できる。

 

 遺伝子融合の可能性を示す複数の遺伝子にまたがるリードを見つけることは簡単だが、遺伝子融合発見の難題は、真の融合を支持するリードを特定することである(複数遺伝子のリードのうち少数派を形成する)。例えば、PacBio IsoSeqによるMCF-7細胞株の実験[20]では、約240万リードのうち、約18万リードが複数の遺伝子にマップされたが、信頼度の高い遺伝子融合は約2000リードのみであった。このような課題を解決するために、新しい計算機による遺伝子融合発見手法であるGenion (GENe fusION)を紹介する。Genionは、トランスクリプトームロングリードのリファレンスゲノムへのマッピングから、まずエクソンのchainsを同定する。複数の遺伝子のエクソンを含むchainを持つリードは、遺伝子融合の可能性を示すリードの初期セットとなる。Genionは、遺伝子融合候補を示すリードをクラスタリングして融合候補を定義し、関与する遺伝子の正常転写産物のバックグラウンド発現パターンの解析と、他の融合候補との共起性に基づく統計的アプローチにより、これらの融合候補をランク付けする。

 Genionの感度と精度を評価するために、Cosmicデータベース[21]から既知の遺伝子融合を、前立腺癌細胞株22Rv1のデータから定義した発現プロファイルを持つヒトトランスクリプトームにスパイクしてシミュレーションデータを作成した。このシミュレーションデータにおいて、Genionは、このデータで実行できた唯一のロングリード融合発見ツールであるLongGFと同等の性能を示し、さらに1つの遺伝子融合を特定した。さらに、乳がん細胞株MCF-7でGenionを評価したところ、GenionとLongGFはともに実験的に検証された3つの融合遺伝子をうまく同定した。このデータセットに関しては、ショートリードから検証した13の追加融合について、LongGFはGenionよりも5つ多く遺伝子融合を発見したものの、報告された遺伝子融合の中には、偽陽性の可能性を示唆する特徴により、実際には正しくないものもあったと思われる。また、LongGFが報告した融合コールの総数はGenionが報告した融合コールの9倍であり、LongGFの融合コールの約40%がGenionではランダムペアリングであることが示された。最後に、アンドロゲンレセプター(AR)遺伝子の異なる変異体を発現することで知られる、よく研究されている前立腺癌細胞株22Rv1 [22]から作成したin-houseデータセットで、2つのツールを比較した。この細胞株で検証された融合はなく、この細胞株は陰性対照としてユニークな役割を果たすことができると考えている。このデータセットにおいて、Genionは1つの遺伝子融合しか報告していないが、LongGFはGenionが報告したものを含め、70の遺伝子融合を報告している。

 

 

インストール

mambaで環境を作ってテストした(ubuntu18使用)。

Github

#conda (link)
mamba create -n genion -y
conda activate genion
mamba install -c bioconda genion

#docker
git clone https://github.com/vpc-ccg/genion
cd genion/docker
docker build . -t genion:latest

> genion -h

GENe fusION

Usage:

  genion [OPTION...]

 

  --gtf arg                 GTF annotation path

  -i, --input arg               Input fast{a,q} file

  -p, --tpaf arg                Long read transcriptome alignment paf path

  -g, --gpaf arg                Long read whole genom e alignment paf path

  -m, --homology arg            Homolog gene pairs csv

  -d, --duplications arg        genomicSuperDups.txt, unzipped

  -s, --transcriptome-self-align arg

                                Self align tsv

  -o, --output arg              Output prefix for an existing path

      --min-support arg         Minimum read support for fusion calls

                                (default: 3)

      --max-rt-distance arg     Maximum distance between genes for

                                read-through events (default: 500000)

      --max-rt-fin arg          Maximum value of chimeric-count /

                                normal-count for read-through events (default: 0.2)

      --non-coding              Allow non-coding genes and transcripts while

                                calling gene fusions

      --prefix-filter arg       Maximum number of unaligned prefix bases

      --suffix-filter arg       Maximum number of unaligned suffix bases

      --mid-filter arg          Maximum number of unaligned bases between

                                fusion gene alignments

      --no-strand-switch        Don't allow strand switches

  -t, --threads arg             Number of threads (default: 8)

  -e, --force                   Force run, overwrites files in the output

                                folder

      --keep-noncoding          Keep non-coding exons

  -h, --help                    Prints help

  -v, --version                 Prints version

 

 

 

 

テストラン

オーサーらがfigshareで公開しているデータを使う。

small simulated example

https://figshare.com/articles/dataset/Small_gene_fusion_simulated_long_read_dataset/17253821

 

1、トランスクリプトミクスロングリードをセルフオーバーラップさせてマッピングのpafファイルを作成する。公開データでは不要。

minimap2 example.fastq example.fastq -X -t 12 -2 -c > cdna.selfalign.paf
cat cdna.selfalign.paf | cut -f1,6 | sed 's/_/\t/g' | awk 'BEGIN{OFS=\"\\t\";}{print substr($1,1,15),substr($2,1,15),substr($3,1,15),substr($4,1,15);}' | awk '$1!=$3' | sort | uniq > cdna.selfalign.tsv

 

2、genionのラン。

cd small_example/
genion -i example.fastq -d genomicSuperDups.txt --gtf Homo_sapiens.GRCh38.97.gtf -g example.paf -s cdna.self.tsv -t 1 -o output.tsv 
  • --gtf   GTF annotation path 
  • -i     Input fast{a,q} file
  • -p    Long read transcriptome alignment paf path
  • -g    Long read whole genom e alignment paf path 

> cat output.tsv 

f:id:kazumaxneo:20220218050016p:plain

https://github.com/vpc-ccg/genion/blob/master/test/small_example.output.tsv

 

snakemakeも利用できます。興味がある方はレポジトリで確認して下さい。

引用

Genion, an accurate tool to detect gene fusion from long transcriptomics reads
Fatih Karaoglanoglu, Cedric Chauve & Faraz Hach 
BMC Genomics volume 23, Article number: 129 (2022) 

 

関連