macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

low complexity

高速なfastqの前処理パイプライン fastp

ダウンストリームデータ解析において高品質で信頼性の高いバリアントを得るためには、シーケンシングデータのクオリティ管理と前処理が不可欠となっている。データは、アダプター配列の汚染、塩基含有量のバイアス、過度な配列を持つことがある。より重要な…

ONTのアーティファクトを取り除く CarrierSeq

環境メタゲノムシーケンシングは、多くの課題を提起する。第一に、複雑な土壌マトリックスと強靭な生物は、デオキシリボ核酸(DNA)とリボ核酸(RNA)の抽出を妨げる[論文より ref.1]。第2に、低バイオマス試料は、汚染の可能性も高める、さらなる抽出および…

k-merを使ったリードフィルタリングを行う Cookiecutter

次世代シークエンシング技術は、より安価になり、ルーティンの分析に役立っている。アセンブリの前に未処理のリードから特定のシーケンスを抽出または削除することを必要とする多くのタスクがある。抽出された領域特異的なリード(例えば、mtDNAまたはrRNAか…

低複雑度領域由来のリードを除去する RepeatSoaker

次世代シークエンシング(NGS)技術は、主に、DNA / RNAサンプルからの数百万回のリードの超並列シーケンシングに基づいており、リード長は増加している[論文より ref.1,2]。 NGSのコストは急速に低下し、その結果、転写を研究するためにマイクロアレイの使…

トリミングツール fqtrim

fqtrimは、アダプター、polyA tail、未知塩基(Ns)および低クオリティな3 '領域をトリミングできる多目的トリミングツール。アダプターとポリA配列の不正確なマッチングにも対応している。 このユーティリティは、複雑さの低い配列(ダスト)のフィルターを…

TE及び単純反復をDe novoで検出する Red

RedはTE及び単純反復の検出ツール。機械学習を通して訓練された。バクテリアゲノムでのテストでは既存のツールより高速に動作し(バクテリアなら10秒程度)、中程度の偽陽性率であった。よく知られている既存のリピート検出ツールと異なり、ほかのアライメン…

TagDust2によるアダンプタートリミング

TgaDust2は、アダプター、バーコード、単純リピートなどの不要な情報を見つけて除去するツール。2009年にTagDDustが発表され、その後2015年にTagDust2が発表された。 公式サイト TagDust インストール brewで導入できる。 brew install TagDust brewではTagD…

mrepsでタンデムリピートを探す

mrepsはダイレクトリピートを探すツール。短い単位の繰り返し配列がタンデムに続く領域を検出することができる。 ミニチュートリアル http://mreps.univ-mlv.fr/tutorial.html webサーバー版 http://bioinfo.lifl.fr/mreps/mreps.php インストール Github Gi…

de novoアセンブルしてバリアントをコールするDISCOVAR

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental du…

多機能なNGSの管理ツール BBtools 其の2

の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンドである。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - アセンブリの基本情報をレポートする。 BBDuk - ク…