macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2018

(ヒト、マウス向け)GO term enrichment解析を行う GOnet

ゲノムワイド研究のアウトプットは、通常、共有の発現パターンを示す遺伝子(またはそれらのタンパク質産物)のリストである。例えば、これらは、疾患の有無にかかわらずドナー群において差次的に発現される遺伝子、または生物学的サンプルの特定の画分にお…

ディープCNNによってONTのバーコーディングロングリードをdemultiplexingするdeepbinner

Multiplexing(バーコード)は、ハイスループットDNAシーケンス能力を複数のサンプルに分散させるために使用される一般的な方法である[ref.1]。各入力DNA試料について、独自のバーコードがシーケンシング用に調製されたDNA分子のライブラリーに組み込まれる…

ショートリードとロングリードのhybrid-assemblyにより de novo transcriptomeアセンブリを行う IDP-denovo

新世代のシークエンシング技術がトランスクリプトームの探索において実質的な進歩をもたらすにつれて、スプライス検出および転写物再構成などの関連するバイオインフォマティクス方法が数多く開発され、様々な種で広く使用されてきた(Grabherr et al、2011;…

tumor heterogeneityを見積もるGenoClone

腫瘍の進化は、連続的な体細胞変異とダーウィン的な自然淘汰によって引き起こされるクローン増殖の反復過程である[ref.1、2]。したがって腫瘍は、腫瘍内異質性と呼ばれる顕著な異なる細胞集団(「サブクローン」と呼ばれる)で構成されている。腫瘍サンプル…

k-merカウントツール Squeakr

Massively parallel high-throughput sequencing (HTS) 技術の登場により、シーケンシング能力は劇的に増加している。増加するHTSデータに対処するための新しい計算方法の多くは、k-mer(k塩基の文字列)をシーケンスの分析の最小単位として使用する。例えば…

推定antibiotic resistance genes を予測するDeepARG

抗生物質耐性は緊急かつ高まる世界的な公衆衛生の脅威である。抗生物質耐性による死亡者数は、2050年までに年間1000万人を超え、世界中で約100兆米ドルかかると推定されている[ref.1-3]。抗生物質耐性は、通常、バクテリアが抗生物質への曝露から生き残ると…

(ヒト向け)8つの異なるバリアントコーラーとデータベースを組み合わせてフィルタリングし、アーティファクトを除きながら高感度なバリアントコールを行う自動パイプライン appreci8

Precision medicine(wiki)は、患者ケアに革命をもたらす。パーソナライズドされた治療戦略は、あらゆる患者に最も適切な治療を提供するためにますます適用されている。ガンを含む遺伝的に関連する疾患に関して個別化医療を実現する重要な側面は、突然変異…

(メタゲノム向け)高効率なプロテインレベルのアセンブリツール PLASS

メタゲノム研究の主な制限は、ショートリードの大部分(土壌で80% - 90%[1])を、遺伝子およびタンパク質配列の予測を可能にするのに十分な長さの連続した配列(contigs)にアセンブリすることができないことである。 低存在量のゲノムはアセンブリが困難…

RNA seqデータの正規化を行いアセンブリ負荷を軽減する ORNA

2019 5/17 誤字修正 シーケンサのスループットの増加および価格の低下に伴い、高カバレッジシーケンシングデータセットの生成は日常的になっている。これは、ゲノムおよびトランスクリプトームのデノボアセンブリのためのいくつかの異なるアプローチの開発を…

メタゲノムのアセンブリ配列からプラスミド配列を予測する PlasFlow

プラスミドは、変化する環境条件下で急速な進化とそれらの宿主の適応を促進するmobile genetic elementsである(ref1,2)。プラスミドは、宿主細胞内で自律的に複製するの染色体外のDNA断片であり、細菌種において広く存在している。既知のプラスミドの大部…

複数データベースを統合した包括的な薬剤耐性遺伝子データベース ARGminer

2019 5/4 タイトル修正 薬剤耐性(AMR)は、世界保健機関(WHO)によって世界規模の主要な健康上の脅威として認識されている。 AMRは2050年までに指数関数的に増加し、実質的なヒトの罹患率と死亡率をかなり増やすと予測されている。したがって、モニタリン…

E.coliとKlebsiellaに対応したWGSからのプラスミド検出ツール PlaScope

最近、いくつかの研究がin silicoプラスミド予測ツールの有効性を評価している[ref.1、2]。実際、現在、多くのバイオインフォマティクス法が、リードカバレッジ解析(例:PlasmidSPAdes)、k-merベースの分類(例:cBAR、PlasFlow)、レプリコン検出(例:Pl…

倍数性レベルを可視化して推測する smudgeplot

性別:それは何の利点があるか?直接的な選択肢が利用可能であるとき、ほとんどの真核生物が繁殖に複雑な迂回路をとる理由は、進化生物学の中心的かつ主として未解決の問題であり続けている。無性生殖を唯一の複製形態として使用する種は系統発生の先端で起…

Nanoporeのロングリードのシミュレータ DeepSimulator

2019 4/17 誤字修正 次世代シークエンシング(NGS)技術により、研究者はDNAおよびRNAをハイスループットでシーケンシングすることが可能になり、これはゲノミクス、トランスクリプトミクスおよびエピゲノミクスにおける多数の突破口を開いた(MacLean et al…

rawロングリードから直接MLSTタイピングを行う Krocus

2019 4/16 コマンド修正 急速にコストが下がる中、Pacific Biosciences(PacBio)やOxford Nanopore Technologies(ONT)のようなロングリードシークエンシング技術がアウトブレイク調査に使われ始めている(Faria et al、2017; Quick et al、2015)。そして…

ロングリードのde novo transcriptomeのクラスタリングツール isONclust

Pacific Biosciences(PacBio)Iso-SeqおよびOxford Nanopore Technologies(ONT)を用いた転写産物のロングリードシークエンシングは、植物[ref.6]、真菌[ref.7]、ウイルス[ref.8]、ヒトなどの複雑なアイソフォームランドスケープの研究の中心となることが…

効率的なロングリードとロングリードのアライナー/オーバーラッパー BELLA

最近のシークエンシング技術の進歩により、これまで以上に大規模なゲノムデータにアクセスしやすくなり、ゲノム構造およびその種間および種内での多様性の特性評価が可能になった。シーケンシング後のデータの分析は困難な作業である。ハイスループットシー…

SVtools

近年の全ゲノムシークエンシング(WGS)の劇的なコスト削減により、数万から数十万のディープシーケンシングされた(> 20倍)個体の包括的な形質関連の解析を行うことを目的とする大規模なヒト遺伝学研究が進行中である。その中で最も重要なものは、NHGRI’s …

DuplicationとdeletionのSVコールから偽陽性の可能性が高いコールをフィルタリングする duphold

2019 5/2 論文追記 構造変異(SV)は、重複、欠失、逆位、挿入、および転座を含む広範な種類の変異である。 SVは、一塩基変異および挿入欠失変異よりも高精度で検出することがより困難であることが知られている。そのため、偽陽性率が高くなる可能性があるこ…

種の形質をコレクションするデータベース Traitpedia

種はそれらの遺伝子型および表現型によって一義的に定義することができる。この遺伝子型および表現型は非常に密接に絡み合っており、追加の環境コンポーネントがこの関係の広い理解を複雑にしている。表現型、または形質は、生物の遺伝情報にある程度依存し…

ロングリードを使ってハプロタイプフェージングを行う HapCHAT

ヒトゲノムの二倍体の性質、すなわちハプロタイプと呼ばれるゲノムの2つのコピーを有するため、ゲノムの変異はこれら2コピーのいずれかに現れる。それぞれのゲノム変異が発生する特定のハプロタイプを知ることは、集団ゲノミクス[ref.1-2]、臨床遺伝学およ…

2005-2017年の各大学のバイオイオンフォマティクス系論文出版数と内容を視覚化した BIOLITMAP

科学および技術のさまざまな分野の科学的貢献に価値を置くことがますます重要になっている。バイオインフォマティクスの急速な発展とその本質的な学際的性質のために、さまざまな応用分野や機関の貢献がどのように発展しているかを視覚化することは特に難し…

Nanoporeのbasecaller Chiron

Oxford Nanopore Technologies(ONT)によって最近マーケットに導入された、バイオエンジニアリングされたナノポアを介したDNAシーケンシングは、ゲノムのlandscapeを大きく変えた。 ONTナノポアシーケンシングデバイスであるMinIONの重要な技術革新は、DNA…

ナノポアのロングリードの長さやクオリティを分析する nanoQC

この論文ではOxford Nanopore TechnologiesとPacific Biosciencesのロングリードシーケンスデータの可視化と処理のために開発されたツールセット、NanoPackについて説明する。NanoPackツールはPython 3で書かれており、GNU GPL3.0ライセンスの下でリリースさ…

ゲノムのCRISPR座位を見つけるwebツール CRISPRCasFinder

Clustered regularly interspaced short palindromic repeats(CRISPR)および関連タンパク質(Cas)は、CRISPR-Casシステムを形成する。 CRISPRは、スペーサーと呼ばれる同じサイズのユニークな配列で区切られた、24〜50 bpの長さのダイレクトリピートまた…

ラップトップで大量のゲノム比較を可能にする BinHash

ゲノム(メタゲノムを含む)の数は急速に増加している。 近い将来、何百万ものゲノム間のペアワイズ距離を推定する必要があるかもしれない。 クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…

fusion geneを検出する FuSeq

染色体再編成の一種である遺伝子融合は、発ガンにおいて重要な役割を果たすことがわかっている[ref.1、2]。それはキメラタンパク質の増加、ガンの危険性および腫瘍の表現型と密接に関連しており、それらはすべて臨床解釈の可能性を秘めている[ref.2]。融合遺…

リアルデータから学習したエラープロファイルを割り当てるペアエンドマージツール NGmerge

ハイスループットDNAシーケンス技術の中で、Solexa / Illuminaプラットフォーム[ref.1]は、1回の実行で最大量のシーケンスデータを作成する[ref.2]。この技術の1つのユニークな特質は、与えられたDNA分子の両端からシーケンスリードを生成するその能力である…

エラーの多いロングリードのハイブリッドエラーコレクションツール HG-CoLoR

2019 2/9 タイトル修正 2019 5/24 condaインストール捕捉, HG-CoLoRのオプション変更に伴いパラメータ修正 最近のPacific Biosciences やOxford Nanoporeのようなロングリードシーケンシング技術は、ショートリード技術で許容されるより大きくて複雑なゲノム…

KrakenUniq

2019 1/17 エラー修正 メタゲノミクス分類手法は、データセット内の各リードに taxonomic identityをアサインすることを試みる。メタゲノミクスデータにはしばしば何千万ものリードが含まれているため、分類は、通常、長さk(k-mers)の短いワードの正確な一…