macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ロングリードを使ってde novoでリピートを探す RepLong

 

 リピートDNA配列は、ゲノムにおいて2回以上出現するセグメント配列である。構成にに基づいて、リピートDNA配列は、interspersed repeats(以下、散在反復配列)と tandem repeats(タンデムリピート)に分けることができる。散在反復配列は非常に同一性が高く、ゲノム中に別々に分布している。主として、転移可能なエレメント(transplantable element:TE)、例えば真核生物ゲノム中の可動性遺伝子エレメントに由来する。タンデムリピートは、互いに隣接しており、 satellitesとsimple sequence repeatsから構成されている(論文より Schlötterer、2000)。リピートは多くの真核生物ゲノムの大部分を占める。ヒトゲノムの約50%(Lander et al、2001)、トウモロコシゲノムの> 80%(Schnable et al、2009)およびfruit flyゲノムの約20%がTEからなる(Bergman et al、2006 )。

 リピートの同定は系統解析には不可欠であり、密接に関連するいくつかの種の根本関係を推測するのに役立つ(Feschotte and Pritham、2007)。リピートは、genomic novelty(Bennetzen and Wang、2014)を生じさせるキープレイヤーであり、ヒトRNA存在量およびスプライシングを調節する重要な要素である(Kelley et al、2014)。ゲノムにおけるリピートの事前知識は、ゲノムの複雑さの大まかな推定を可能にし(Eddy、2012)、misassembled rearrangementsを緩和する(TreangenおよびSalzberg、2012)。

 リピートDNA配列を同定するための多くの計算方法が提案されており、それらはde novo、homology-basedおよびstructure-basedの方法(Bergman and Quesneville、2007)に大きく分けられる。De novoのメソッドは、既知のリピート配列との類似性の事前情報を必要としないので、他の2つの方法よりも柔軟性がある傾向がある。 De novoメソッドの大部分は、クエリー対クエリー類似性検索またはワードカウント/シード拡張戦略(Feschotte and Pritham、2007)に基づいている。

 新規の方法では、2つの異なるタイプの入力、すなわちゲノム全体およびリードの配列が考慮される。ハイスループットシーケンシング技術の発明以前は、ほとんどのde novoメソッドがゲノム全体を対象としていた。例えば、RECON(Bao and Eddy、2002)は、ゲノム多重アライメントと単一リンケージクラスタリングを用いてリピートを抽出する。 RepeatModeler(http://www.repeatmasker.org/RepeatModeler/)は、RECONとRepeatScout(Price et al。、2005)の2つのde novoリピートディスカバリープログラムを組み合わせて、リピート要素境界とシーケンスからの家族関係を識別する補完的な計算方法を採用している(一部略)。

 近年、ハイスループットシーケンシング技術の進歩により、短いシーケンスを直接使用してリピートライブラリを抽出するための多くの新しい方法が提案されている。例えば、ReAS(Li et al。、2005)は、ショットガンシーケンシングリードとシード伸長法を使用してリピートを識別する(一部略)。

 ショートリードに基づくリピート同定はリピート断片を同定する傾向があり、ロングリピートを回復するためにはアセンブリが必要である。しかしながら、ショートリードアセンブリの本質的なあいまいさは、ロングリピート識別精度を低下させる。ショートリードと比較して、ロングリードにはいくつかの利点があるとみなされる(Eid et al、2009)。特に、リード長を大幅に増やすことでアセンブリのあいまいさを解消し、ロングリピートの識別を容易にすることができる。残念なことに、ショートリードベースのリピート識別でうまく機能する既存のk-mer計数およびアセンブリ方法は、ロングリードのカバレッジが低くシーケンスエラー率が高いため、効果的に適用できない(English et al、 2012)。したがって、ロングリードに基づく特異的かつ効率的なリピート同定法が強く求められている。

 本稿では、ロングリードを用いたデノボリピート識別法RepLongを提案する。その動機は次のように説明される。リファレンスゲノムにマッピングされたリードは、通常、リピート領域で鋭いカバレッジでパイルを形成し、リピート境界で急激に落ち込むことが観察される(リピート上でカバレッジが非常に多くなって柱のように見える)。論文図1に示すように、同じリピート領域にマップされたリードは、それぞれ高度にオーバーラップしている。この観察から、リファレンスゲノムが提供されていなくても、読まれたパイルの自明的でない(nontrivial)コンセンサスのオーバーラップを見つけることによってリピート領域を同定することができる。特にロングリードではオーバーラップ長が長くなる傾向があり、コンセンサスオーバーラップがより容易に認識される。リードがオーバーラップをedgeとするネットワークで構成されている場合、リード間のコンセンサスオーバーラップの検出はcommunity structure detection problem(シェーファー、2007; Harenberg et al、2014; Girvan and Newman、2002)に投入することができる。
 RepLongでは、ロングリード間のオーバーラップは、最初にペアワイズアラインメントに基づいて識別され、次に、リードネットワークはリード間の重なり関係を表すように構築される。このリピート識別は、community detection problemに投げかけられ、ネットワークモジュール性の最適化によって解決される。最後に、検出されたコミュニティの代表的なリードを抽出して、リピートライブラリを識別する(一部略)。結果は、RepBaseリピートライブラリー(バージョン21.04)およびショートリードベースのRepARKによって構築されたリピートライブラリーと比較される。比較研究は、長いリピートを特定する際のRepLongの効率を実証している。 RepLongは、ショートリードベースの方法と互いに補完しあって一緒に機能することができる。

 

インストール

cent os6でテストした。

依存

canuは本体とともにインストールされる。Rのigraphは、Rを立ち上げ、" install.packages("igraph") "で導入できる。faidxは"pip install pyfaidx "で導入できる。

本体 Github

https://github.com/ruiguo-bio/replong

git clone https://github.com/ruiguo-bio/replong 
cd replong/
./install.sh

./replong.sh 

$ ./replong.sh 

script path = /home/uesaka/replong

file=

genomeSize=

correction=false

temp folder=

lendiff=200

fromlen=250

network minimum overlap length=100

original place=/home/uesaka/replong

no input file!

 

 

ラン

ロングリードはFASTAで与える(-f)。canuを内部で動かすため、ゲノムサイズ(-s)も指定する必要がある。raw fastaファイルならエラーコレクション(-c)も行うことが推奨されている。

./replong.sh  -f long_reads.fasta -s 120M -t working_dir -c true

 

FASTAのヘッダー内にスペースがあると動作しない。スペースがある場合は適当なコマンドかスクリプトで修正する。

ヘッダの連番へのリネーム

perl -ane 'if(/\>/){$a++;print ">name_$a\n"}else{print;}' input.fa > rename.fa

 

本体(シェルスクリプト)のコードの185行目のcanuのパスが間違っていたので

canuPath="canu-1.4/Linux-amd64/bin"

canuPath="canu/Linux-amd64/bin"

に修正した。

 

引用

RepLong: de novo repeat identification using long read sequencing data

Guo R, Li YR, He S, Ou-Yang L, Sun Y, Zhu Z

Bioinformatics. 2018 Apr 1;34(7):1099-1107.