macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021-01-01から1ヶ月間の記事一覧

メタゲノムの生合成遺伝子クラスター予測と多様性評価を行う BiG-MEx

微生物は、特殊な代謝経路の酵素をコードする物理的にクラスタ化された遺伝子である生合成遺伝子クラスター(BGC)を発現することにより、膨大な種類の天然物を生産している。これらの天然物は、工業的・医学的利用価値の高い幅広いケミカルクラス(アミノグ…

ANIを計算する改善されたアルゴリズム orthoani

細菌・古細菌における種の分類は、主にゲノム全体の関連性に基づいて行われており、現代の微生物学の枠組みとなっている。現在、2つの系統間の類似度は、実験的に決定されたDNA-DNAハイブリダイゼーション(DDH)による類似度から、ゲノム配列に基づく類似度…

非線形な低次元プロットを用いてデータパターンを可視化して調査するStreamlitアプリ GECO

シーケンシング技術の継続的な進歩により、「オミクス」というレンズを通して生物学的システムを理解する上での限界は、もはやデータの生成ではなく、それを解析する能力にある。重要なことは、この豊富な「-omics」データの多くは一般に公開されており、さ…

ロングリードRNA seqの転写産物レベルのリードカウントとスプライシングアイソフォーム検出を行う LIQA

2021 1/28 カテゴリ追加、タイトル修正 ロングリードRNAシーケンシング(RNA-seq)技術により、転写産物全長の配列決定が可能となり、従来のショートリードRNA-seqよりもアイソフォーム特異的な遺伝子発現の探索が容易になった。しかし、ロングリードRNA-seq…

シークエンシングエラーの多いロングリードからLong Tandem Repeatsを探す mTR

1000 ntを超える長いタンデムリピート拡張は疾患との関連性が示唆されているが、シークエンシンリード長が短すぎるため、ほとんどの場合、個々のヒトゲノムでは未解明のままである。しかし、新しいロングリードシークエンシング技術は、このようなリピート拡…

高速なONTロングリードの前処理ツール nanoq

2022 1/11 論文引用 基本的なシーケンス品質管理とサマリー統計の計算は、リードをパースするのがボトルネックになることにより少し時間がかかる場合がある。Nanoq は、needletail および rust-bio ライブラリを使用した fastx ファイルに対して、欠陥のある…

RNAの二次構造を予測する UFold 

多くのRNA分子にとって、二次構造はRNAの補正機能に欠かせないものである。ヌクレオチド配列からRNAの二次構造を予測することは、ゲノミクスにおける長年の課題であるが、予測性能は時間の経過とともにプラトーに達している。従来のRNA二次構造予測アルゴリ…

(ヒト、マウス、ラット)RNA seqの前処理からリードカウントまで行うスケーラブルなパイプライン SPEAQeasy

2021 1/25 わかりくい説明を修正、タイトル修正 RNAシーケンシング(RNA-seq)は、一般的で広く普及している生物学的アッセイであり、それによって生成されるデータの量は増加している。実際には、生のRNA-seqリードから発現変動遺伝子などの直接的に価値の…

汚染配列をスクリーニングする VecScreen

異物混入スクリーニングの目的は、人為的な理由または生物学的な理由で存在する可能性のある汚染配列を特定することである。人為的な理由としては、クローニング人工配列(ベクター、リンカー/アダプター/プライマー、大腸菌宿主DNA)、ヒトのDNA配列による…

アダプター配列情報なしでアダプタートリミングを行う EARRINGS

次世代シークエンシング(NGS)に基づくクロスサンプル比較や大規模メタアナリシスでは、リード中の汚染アダプターフラグメントの除去(すなわちアダプタートリミング)を含む、複製可能で普遍的なデータの前処理が必要となる。最新のアダプタートリマーは、…

オーバーラップグラフに基づいたde novoゲノムアセンブラ ALGA

2021 1/22 誤字修正 オーバーラップグラフ法に基づいたde novoゲノムアセンブリの手法は非常に少ない。いわゆるde Bruijnグラフアプローチよりも正確な結果が得られると考えられているが、より多くの時間とより多くのメモリを必要とする。オーバーラップグラ…

BLAST結果をソート・フィルタリングする BLAST-QC

NCBIのBasic Local Alignment Search Tool (BLAST)は、バイオインフォマティクスおよびゲノミクス研究のための配列アライメントおよび同定のための好ましいユーティリティである。NCBIのBLASTソフトウェアを使用している研究者の間では、大規模なBLAST検索の…

大きなファイルを書き出すために必要な時間

2021 1/21, 1/30 文章修正 HTSのシークエンシングリードのデータ解析では、巨大なテキストファイルを読み込み、何らかの計算を行なって結果をファイル保存します。これを繰り返して最終的に生物学的な洞察に繋げるわけですが、この繰り返しで、大きなファイ…

ボックスプロットを描画するwebツール BoxPlotR

2021 2/26 追記 生物医学研究では、異なる分布を持つ複数のデータセットを比較する必要があることが多い。棒グラフ、またはヒストグラムは、通常、単純な統計的尺度、通常は s.d.やs.e.m.による平均値に基づいてデータセットを比較するために使用される。ボ…

多様なヒートマップを作図できるwebサービス Heatmapper

2021 1/19 誤字修正 Heatmapperは自由に利用できるWebサーバであり、ユーザーは使いやすいグラフィカルなインターフェースを使って、データをヒートマップの形でインタラクティブに視覚化することができる。既存の非商用のヒートマップパッケージは、グラフ…

(バクテリア)共存在する遺伝子を探索するwebサービス PhyloCorrelate

系統プロファイリング」として知られるゲノム間のco-occurring genesを統計的に検出する方法は、遺伝子間の機能的関連を推測するための強力なバイオインフォマティクス技術である。系統樹データベースのサイズと複雑さ、系統樹構造の考慮の難しさ、ゲノムア…

原核生物のゲノムアセンブリでキメラや汚染を調べる GUNC

2021 1/18 解析例追加 2021 6/15 論文引用 2022/06/16 コマンド更新、10/13 追記 ゲノムは原核生物の系統の遺伝的青写真であり、現在進行中の微生物世界のセンサスの中心にある微生物学の基本単位であり、微生物の生態と進化の研究に不可欠なものである。199…

高速なハプロタイプバリアントコーラー LocHap

Somatic mosaicismとは、単一の生物学的サンプル中の体細胞の一部に体細胞変異が存在することである。その重要性は主に理論的に議論されてきたが、実験的な研究により体細胞モザイクと疾患診断との関連性が明らかになりつつある。本研究では、健康なドナーの…

CoronaSPAdes

2021 2/2 追記 COVID-19 パンデミックを契機に,コロナウイルス研究への関心が高まっている.コロナウイルスデータセットの解析は、リードアラインメントまたはde novo assemblyを用いて完全長ウイルスゲノム配列を得ることから始まる。リードアラインメント…

バリアントコーラー FreeBayes

2021 4/28 例追加 2021 5/15 追記 ハプロタイプベースのバリアント検出方法は、一度に1つの位置で動作する方法に比べて多くの利点を提供する。ハプロタイプベースの方法は、同じコンテキストで対立遺伝子のすべてのクラスを同時に評価することにより、記述さ…

最適なマッパーとパラメータを決定するのを支援する Teaser

最近のシーケンシング技術とアプリケーションの進歩は、次世代シーケンシング(NGS)のリードをリファレンスゲノムにアラインさせる方法(リードマッピング)の急速な成長につながっている。2015年半ばまでに、100種類近くのマッパーが利用可能になったが、…

MOSAIKアライナー

MOSAIKは、第2世代および第3世代のシーケンシング リードをリファレンスゲノムにマッピングするための安定した高感度のオープンソース プログラムである。現在のマッピングツールの中でも特に優れているMOSAIKは、Illumina、Applied Biosystems SOLiD、Roche…

バリアント領域のリードマッピングを視覚化する BamSnap

バリアント検出アルゴリズムの向上にもかかわらず、ゲノム解析における正確なバリアントの同定には、リードレベルのデータを視覚的に確認することが重要な課題となっている。著者らは、グラフィックスライブラリとBAMインデックスを利用した効率的なBAMファ…

リファレンスフリー、アラインメントフリーの系統比較ツール SANS serif

計算パンゲノミクスや系統樹解析では、複数のゲノムを並行して解析することが大きな課題となっている。系統樹の再構成の従来のアプローチは、マーカー遺伝子のような特定の配列のアラインメントに基づいている。しかし、複数の配列のアラインメントの問題は…

(主に微生物)代謝モデルのデータベース BiGG Models

BMC Bioinformatics. 2010 Apr 29;11:213 COBRA(Constraint Based Reconstruction and Analysis)フレームワークに基づくゲノムスケールの代謝再構成は、生物の代謝能力を解析し、実験データを解釈するための貴重なツールである。このような再構成や解析手…

Linked readを使ってスキャフォールディングを行う ARBitR

ゲノムアセンブリの連続性は、構造的なリアレンジメント、遺伝子の順序、発散したゲノム間のシンテニー、遺伝子バリアント間のリンケージ、ゲノムの反復領域などを解析するために重要である。アセンブリの連続性はスキャフォールディングによって改善するこ…

マッピングなしでraw fastqからバリアントコールを行う KATK

KATKは、raw NGSリードから直接バリアントをコールするための高速かつ正確なソフトウェアツールである。KATKは、あらかじめ定義されたk-merを使用してFASTQファイルから興味のあるリードのみを取得し、取得したリードをローカルにアラインメントすることで遺…

ヒトとマウスの ロングノンコーディングRNAのアノテーションをつける lncFunTK

ロングノンコーディングRNA(lncRNA)とは、200塩基より長いノンコーディング転写物を指す。現在までに、約58,000のlncRNAが様々な細胞型・組織に集積されているが、そのうち79%が新規性の高いものであり、その生物学的機能は未だ解明されておらず(Iyer et a…

HiFiロングリードを使ってhaplotype-resolved assemblyを行う Hifiasm

2022/03/26 Hi-Cと組み合わせた論文引用、ツイート追記 2023/02ツイート追記 2024/04/06 追記、help更新 Haplotype-resolved de novo assemblyは、ゲノム配列のバリエーションを研究するための究極のソリューションである。しかし、既存のアルゴリズムでは、…

パンゲノム解析でゲノミックアイランドやHGT(コア遺伝子ではない領域)を探索するPPanGGOLiNのpanRGPコマンド

2024/02/27 追記 Horizontal gene transfer(HGT)は原核生物のゲノムの変動性の主な原因である。ゲノム可塑性領域(Region of genome plasticity: RGP)とは、非常に可変性の高いゲノム領域に位置する遺伝子の集合のことである。その多くはHGTから発生し、 …