macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2020

BURST

次世代のDNAシーケンシングデータが計算能力が追いつかないほどの速さで出現しているため、基本的なDNAアライメント/マッピングの問題に対する近似ヒューリスティックな解法がますます使われるようになってきている。逆説的なことに、データが増えれば増える…

インタラクティブな出版品質の合成 Figure作成webツール canvasDesigner2

Scalable Vector Graphics (SVG) は、拡張可能なマークアップ言語 (XML) ベースのベクトル画像フォーマットであり、png, gif, jpg のような他の一般的な画像フォーマットのようにぼやけたピクセル化をすることなく、任意の解像度に拡張可能である。この形式…

事前計算された植物の遺伝子ファミリーの系統樹 PhyloGenes

著者らは、シロイヌナズナや他のモデル生物から得られた遺伝子機能に関する知識を、他の植物種に正確かつ効率的に伝達できるようにすることを目指している。このような知識移転は、植物の系統における個々の遺伝子やゲノム全体の重複のために、植物において…

メタゲノムのキュレーションされたメタデータ公開リポジトリ TerrestrialMetagenomeDB

微生物群集の遺伝的可能性に着目したマイクロバイオーム研究(メタゲノム研究)は、微生物生態学の分野では標準的なものとなった。MG-RASTとSequence Read Archive (SRA)という2つの主要なメタゲノムリポジトリには、202,858以上の公開メタゲノムがあり、そ…

データベースの汚染を調べる conterminator

公的・私的リポジトリのゲノム数は、少なくとも過去10年間で急増しており、その主な理由は、塩基配列決定にかかる費用が急速に低下したことにある。また、公開されているゲノムデータベースGenBankは、EMBLやDDBJと定期的に同期しており、約18ヶ月ごとにその…

nf-coreのampliseqパイプライン

2021 2/13 誤字修正 微生物群集の構成を明らかにし、微生物集団の動態を解明し、環境試料中の微生物の多様性を探るための主要な手法の一つとして、DNAやRNAを用いた16S rRNA(遺伝子)アンプリコンシークエンシングとバイオインフォマティクス解析を組み合わ…

RNAseqのDEGsを視覚化する DrEdGE

Differential Expression Gene Explorer(DrEdGE)はウェブベースのツールで、インタラクティブなオンラインのデータビジュアライゼーションを簡単に作成できるようにgenomicists(*1)を案内する。 DrEdGEの機能を、公開されているデータセット(ヒトの神経…

生殖細胞バリアントや体細胞バリアントを検出する自動化されたパイプライン Sarek

2021 2/9 タイトル修正 2021 2/12, 2/15コマンド追記 2021 5/16 コメント追記 全ゲノムシークエンシング(WGS)は、精密医療の発展のための研究の基盤技術であるが、WGS解析のためのポータブルで使いやすいワークフローが限られていることが、多くの研究グルー…

配列をアセンブリグラフにマッピングしてグラフを拡張する minigraph

最近のシーケンシング技術の進歩により、個々のゲノムを参照ゲノムの質に合わせて組み立てることが可能になった。同一種からの複数のゲノムを統合し、統合された表現を生物学者が利用できるようにするにはどうすればよいのかは、依然として未解決の課題であ…

GraphBin2

メタゲノムシークエンシングは、微生物群集の構造、多様性、生態を純粋な培養物を得ることなく研究することを可能にする。多くのメタゲノム研究では、メタゲノムシークエンシングから得られたリードは、最初に長いコンティグにアセンブリされ、これらのコン…

ハイブリッドアセンブリとビニング及び下流解析を行う自動化されたパイプライン MUFFIN

2021 2/5,2/6 出力例追記 2021 2/11 論文引用 メタゲノミクスは微生物学の多くの分野を再定義した。しかし、メタゲノムアセンブルゲノム(MAG)は、主にショートリードでシーケンスが行われた場合、断片化されていることが多い。最近のロングリードシーケン…

DNA・RNA・タンパク質の物理化学的特徴を調べるためのGUIアプリケーション VisFeature

2021 2/2 タイトル変更 遺伝子やタンパク質の一次配列から機能的属性を予測するバイオインフォマティクスアルゴリズムの開発には多くの努力がなされてきた。その際の課題の一つとして、ヒューリスティック手法や反復法によって選択された統計的特徴を直感的…

染色体イデオグラムや染色体間のシンテニープロットを描画する RIdeogram

近年、シーケンシング技術の発展、特にPacific Biosciences(Eidら、2009)およびOxford Nanopore Technologies(Laverら、2015)を含む第三世代シーケンシングの急速な進歩、BioNanoゲノムマッピング(Caoら、2014)およびハイスループットクロマチンコンフ…

ロングリードRNA seqの転写産物レベルのリードカウントとスプライシングアイソフォーム検出を行う LIQA

2021 1/28 カテゴリ追加、タイトル修正 ロングリードRNAシーケンシング(RNA-seq)技術により、転写産物全長の配列決定が可能となり、従来のショートリードRNA-seqよりもアイソフォーム特異的な遺伝子発現の探索が容易になった。しかし、ロングリードRNA-seq…

シークエンシングエラーの多いロングリードからLong Tandem Repeatsを探す mTR

1000 ntを超える長いタンデムリピート拡張は疾患との関連性が示唆されているが、シークエンシンリード長が短すぎるため、ほとんどの場合、個々のヒトゲノムでは未解明のままである。しかし、新しいロングリードシークエンシング技術は、このようなリピート拡…

RNAの二次構造を予測する UFold 

多くのRNA分子にとって、二次構造はRNAの補正機能に欠かせないものである。ヌクレオチド配列からRNAの二次構造を予測することは、ゲノミクスにおける長年の課題であるが、予測性能は時間の経過とともにプラトーに達している。従来のRNA二次構造予測アルゴリ…

BLAST結果をソート・フィルタリングする BLAST-QC

NCBIのBasic Local Alignment Search Tool (BLAST)は、バイオインフォマティクスおよびゲノミクス研究のための配列アライメントおよび同定のための好ましいユーティリティである。NCBIのBLASTソフトウェアを使用している研究者の間では、大規模なBLAST検索の…

原核生物のゲノムアセンブリでキメラや汚染を調べる GUNC

2021 1/18 解析例追加 ゲノムは原核生物の系統の遺伝的青写真であり、現在進行中の微生物世界のセンサスの中心にある微生物学の基本単位であり、微生物の生態と進化の研究に不可欠なものである。1995年に細菌の完全なゲノムが初めて公開されてから25年が経ち…

CoronaSPAdes

2021 2/2 追記 COVID-19 パンデミックを契機に,コロナウイルス研究への関心が高まっている.コロナウイルスデータセットの解析は、リードアラインメントまたはde novo assemblyを用いて完全長ウイルスゲノム配列を得ることから始まる。リードアラインメント…

リファレンスフリー、アラインメントフリーの系統比較ツール SANS serif

計算パンゲノミクスや系統樹解析では、複数のゲノムを並行して解析することが大きな課題となっている。系統樹の再構成の従来のアプローチは、マーカー遺伝子のような特定の配列のアラインメントに基づいている。しかし、複数の配列のアラインメントの問題は…

(主に微生物)代謝モデルのデータベース BiGG Models

BMC Bioinformatics. 2010 Apr 29;11:213 COBRA(Constraint Based Reconstruction and Analysis)フレームワークに基づくゲノムスケールの代謝再構成は、生物の代謝能力を解析し、実験データを解釈するための貴重なツールである。このような再構成や解析手…

Linked readを使ってスキャフォールディングを行う ARBitR

ゲノムアセンブリの連続性は、構造的なリアレンジメント、遺伝子の順序、発散したゲノム間のシンテニー、遺伝子バリアント間のリンケージ、ゲノムの反復領域などを解析するために重要である。アセンブリの連続性はスキャフォールディングによって改善するこ…

マッピングなしでraw fastqからバリアントコールを行う KATK

KATKは、raw NGSリードから直接バリアントをコールするための高速かつ正確なソフトウェアツールである。KATKは、あらかじめ定義されたk-merを使用してFASTQファイルから興味のあるリードのみを取得し、取得したリードをローカルにアラインメントすることで遺…

パンゲノム解析でゲノミックアイランドやHGT(コア遺伝子ではない領域)を探索するPPanGGOLiNのpanRGPコマンド

Horizontal gene transfer(HGT)は原核生物のゲノムの変動性の主な原因である。ゲノム可塑性領域(Region of genome plasticity: RGP)とは、非常に可変性の高いゲノム領域に位置する遺伝子の集合のことである。その多くはHGTから発生し、 genomic islands…

Deep learningによって高速かつ精度の高いオーソロガスタンパク質のアサインメントを行う DeepNOG

タンパク質オロソログ群データベースは、進化解析、機能アノテーション、または系統を超えた代謝パスウェイのモデリングのための強力なツールである。また、配列は通常、プロファイル隠れマルコフモデルなどのアライメントベースの手法でオーソロガスなグル…

prokaryotesの自動化されたRNA seq解析パイプライン prokseq

2021 1/8 誤字修正 大規模な並列シーケンシングの進歩とシーケンシングコストの劇的な削減により、RNAのディープシーケンシング(RNA-Seq)はRNA転写産物の同定と定量化のための主要なツールとなった。今日、RNA-Seqは、創薬標的の同定、新規遺伝子制御機構…

メタゲノムの機能的アノテーションを行う自動化されたパイプライン MetaLAFFA

2021 2/8 mambaインストール追記 微生物群集の機能的能力の解析は、マイクロバイオームに基づく研究の重要な要素となっており、腸内マイクロバイオームとうつ病[ref.22]、自閉症[ref.18]、2型糖尿病[ref.16]などの宿主の状態との間の関連性についての新たな…

ゲノムアセンブリをリファレンスゲノムと比較してSVをコールする SVIM-asm

ゲノム変異の主要なクラスの一つとして、構造バリアント(SV)は50 bps以上の大きさのゲノムリアレンジメントの多様な範囲から構成されている。ヒトの平均的なゲノムには、シングルヌクレオチドバリアント(Single Nucleotide Variants: SNV)やsmall indel…

(ヒト)バリアントの影響を評価する dbNSFP v4

全ゲノムシークエンシング(WES)や全ゲノムシークエンシング(WGS)は、研究や臨床の場でヒトの疾患研究にますます利用されるようになってきている。その結果、健康な人からメンデル病や複雑な疾患を持つ人まで、DNA配列データの津波を目の当たりにするよう…

elPrep5

2021 2/10 v5 リリースへのリンク追加 elPrep 5は、シーケンスアライメント/マップファイルをバリアントコーラーで処理するためのelPrepフレームワークを更新したものである。elPrep 5は、バリアントコールのためのGATKベスト・プラクティスに記載されている…