macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2019-06-01から1ヶ月間の記事一覧

AMOSアセンブラパッケージのMinimusとMinimus2

2021 6/11 minimus2のコマンドを修正 MInumusのpaper(Sommer et al., 2007)より 大規模な全ゲノムシークエンシングプロジェクトの課題に対処するためのアルゴリズムの必要性に応えて、ゲノムアセンブラは非常に大きく複雑になっている。しかし、アセンブラ…

(メタゲノム向け) blastアノテーション結果をインタラクティブなグラフで視覚化する Keanu

メタゲノミクスは、環境サンプルから回収された遺伝物質の研究である。これらのサンプルは、特定の環境の多様性や生態学に関する情報を提供する。メタゲノミクス研究は通常、ショットガンシーケンスデータセットから得られた微生物シーケンスに焦点を当てて…

MMseqs2 コマンド其の2 タンパク質配列のクラスタリング

インストール 以前の記事を参照 > mmseqs $ mmseqs MMseqs2 (Many against Many sequence searching) is an open-source software suite for very fast, parallelized protein sequence searches and clustering of huge protein sequence data sets. Please…

FragGeneScan

次世代シーケンシング技術の進歩は、環境試料(すなわちメタゲノム)内の遺伝物質の全コレクションを直接シーケンシングしようと試みるメタゲノム研究を促進した。メタゲノムアセンブリは利用できないことが多いので(論文執筆時点)、ショートリードから直…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

複数のメタゲノムをその場で分析するための軽量で多機能なメタゲノム分析ツール SqueezeMeta(オフライン使用)

2020 11/19 condaインストール追記 シーケンシング技術の改良によりメタゲノムシーケンシングが一般化し、メタゲノムシーケンシングがマイクロバイオームの構造および機能性を分析するための標準的な手順となった。メタゲノム実験によって生成された膨大な数…

ショートリードのマッピングを行う Whisper

リファレンスゲノムへのリードのマッピングは、シークエンシングデータ解析パイプラインの最初のステップである。シーケンシングコストが削減していることから、合理的な時間内に増大する量の生成データを処理することができるアルゴリズムに対する必要性が…

メタバーコディングのデータベース配列キュレーションなどを行うツールキット MetaCurator

配列ベースの生物学的コミュニティの特徴付けの過程において、配列の教師ありのtaxonomic classification は重要な目標である。多数の配列分類ソフトウェアプログラムは、配列類似性を測り、そして配列類似性と分類学的所属との間の関係をモデル化することに…

ヒトのガン原遺伝子/腫瘍抑制遺伝子の変異を視覚化するwebツール Mutplot

シーケンシング技術開発はガン研究に革命をもたらした。約20年に及ぶ発展後、次世代シーケンシング(NGS)は速くて手頃な価格になっている。それは精密医療を臨床の現実にした。 NSGは、臨床現場での治療法を個別化し、研究情報を広げるための包括的なビッグ…

バクテリア、アーキア、プラスミドの複製起点(ori)データベース DoriC

2019 6/21 誤字修正、コマンド修正 2023/10/19 URL修正 すべての生物において、DNA複製は複製機構の構築段階で正確に制御されている(ref.1)。複製起点は特定のゲノム遺伝子座であり、そこでは二本鎖DNAがほどけて一本鎖DNA鋳型を形成して新しい鎖の合成を…

ショートリードによるpolishingも行う高速なロングリードアセンブラ Raven (旧名 Ra)

2020 5/23 タイトル補足、ravenインストール追記 2020 8/11 引用にpreprint追記 2021 5/24 論文引用 2022/06/08 help更新 Ra(現在はRaven)は、第3世代シーケンシングによって生成されたrawシーケンシングリードの高速で使いやすいアセンブラである。 以下…

(Omics向け) 従来のベン図表現を拡張する DiVenn

ハイスループットデータ技術の進歩により、詳細な分析なしに膨大な量の遺伝子発現データが生成されてきた。例えば、INVEX (Xia et al., 2013)、ExAtlas (Sharov et al., 2015)、そしてWebGIVI (Sun et al., 2017)などのいくつかのウェブベースの視覚化ツール…

多機能なNGS分析ツール BBtools 其の3BBMap追加コマンド

BBMapの追加コマンドについて紹介します。 BBMap Guide https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/bbmap-guide/ callvariants.sh Introducing CallVariants, a new variant caller in #BBMap! CallVariants is 81x faster than mpilu…

(ヒト、マウス向け)GO term enrichment解析を行う GOnet

ゲノムワイド研究のアウトプットは、通常、共有の発現パターンを示す遺伝子(またはそれらのタンパク質産物)のリストである。例えば、これらは、疾患の有無にかかわらずドナー群において差次的に発現される遺伝子、または生物学的サンプルの特定の画分にお…

bamファイルを扱う bamM

BamMはBAMファイルを解析するpythonにラップされたcライブラリである。 このコードはPySam (link) のすべての機能を実装するものではないが、PySamよりも高速で安定したBAMファイルのインターフェースを提供することを目的としている。 HP http://ecogenomic…

メタゲノムのファージ配列分析webサーバー VirMiner

2019 6/15 誤字修正 ウイルスは、それらの恒常性および進化に寄与する微生物群集の必須の構成要素である。ヒトの腸内細菌叢のウイルス群集はバクテリオファージが支配的である[ref.1]。ファージは遺伝子水平伝播(HGT)[ref.2]によって細菌群集の構造と機能…

メタゲノムアセンブリをbinningする CONCOCT

2021 4/28 コマンド追記 ショットガンシーケンシングは、複雑な微生物群集からのゲノムの再構築を可能にするが、全ゲノムを再構築することはできないので、ゲノムの断片をビンに入れることが必要である。 この論文では、CONCOCTを提示する。これは、コンティ…

ロングリードのドラフトアセンブリをpolishする marginpolish

2019 6/13 tweetリンク追加、誤字修正 MarginPolishはグラフベースのアセンブリのpolisher。入力としてFASTAアセンブリとインデックス付きBAM(ONTのアセンブリ配列へのアラインメント)を受け取り、polishingしたFASTAアセンブリを生成する。 MarginPolish…

CAP3

備忘録を兼ねて紹介します。論文はこれまで5000回以上引用されています。 CAPシーケンスアセンブリプログラムの第3世代について説明する。 CAP3プログラムには多くの改良と新機能が含まれている。 プログラムは、5 'および3'の低品質のリード領域を切り取…

Long terminal repeats retrotransposonsをゲノム配列からde novoで発見する LtrDetector

以前は「ジャンクDNA」と考えられていたゲノムの遺伝子間領域の配列は、生物学者の間でますます注目を集めている。これらの領域の特に顕著な特徴は、一種のリピート配列である転移因子(TE)の普及率である。 TEには、RNAを使用して複製して自分自身を「コピ…

様々なデータベースを使ってヒトミトコンドリア変異のアノテーションを行う hmtnote

2019 6/11 データベース追記 HmtNoteは、VCFファイルからヒトのミトコンドリアのバリアントにアノテーションを付けるためのPythonパッケージである。バリアントは、基本、相互参照、変動性、予測のサブセットにグループ化された幅広い情報を使用してアノテー…

contigやシーケンシングリードのリファレンスへのアラインメントを複数の方法で視覚化する Alvis

2019 6/10 誤字修正 2019 6/21 リンク追加 2021 6/3 論文引用 2セットの配列間のアラインメントを見つけることは、バイオインフォマティクスにおける基本的な作業である。ロングリードの解析、アセンブリ結果の評価、またはターゲットキャプチャープロトコル…

ディープCNNによってONTのバーコーディングロングリードをdemultiplexingするdeepbinner

Multiplexing(バーコード)は、ハイスループットDNAシーケンス能力を複数のサンプルに分散させるために使用される一般的な方法である[ref.1]。各入力DNA試料について、独自のバーコードがシーケンシング用に調製されたDNA分子のライブラリーに組み込まれる…

環状RNA(circRNAs)を検出する ACValidator

環状RNA(circRNAs)は、エキソンが互いにバックスプライスするときに形成される進化的に保存されたRNA分子種である。これらのバックススプライシングジャンクションを検出するための現在の計算アルゴリズムは分岐した結果を生じるので、それ故、真のポジテ…

GO enrichment解析データベース agriGO v2.0

2019 6/13 追記 2022 1/7 補足追加 エンリッチメント解析は、大量の遺伝子リストに関連する機能を決定し、生物学的過程を解釈する可能性を高めるための効率的かつ迅速な方法である(ref.1)。Biological processes(BP)、molecular functions(MF)、cell c…

ショートリードとロングリードのhybrid-assemblyにより de novo transcriptomeアセンブリを行う IDP-denovo

2020 5/3 docker imagesアップ 新世代のシークエンシング技術がトランスクリプトームの探索において実質的な進歩をもたらすにつれて、スプライス検出および転写物再構成などの関連するバイオインフォマティクス方法が数多く開発され、様々な種で広く使用され…

metaplasmidSPAdes

2019 6/7 出力例 プラスミドは、それらの生存および適応にとって重要なさらなる遺伝物質を細菌宿主に提供するクロモソーム外に独立して複製されるDNA分子である。シーケンシング時代より昔は、抗生物質耐性または難治性有機化合物を分解する能力など、それら…

tumor heterogeneityを見積もるGenoClone

腫瘍の進化は、連続的な体細胞変異とダーウィン的な自然淘汰によって引き起こされるクローン増殖の反復過程である[ref.1、2]。したがって腫瘍は、腫瘍内異質性と呼ばれる顕著な異なる細胞集団(「サブクローン」と呼ばれる)で構成されている。腫瘍サンプル…

転写領域アノテーションのためSRAのデータをサンプリングしてマッピング率等を評価する VARUS

2019 6/3 何も表示されないバグを修正 非常に大量の次世代シークエンシング(NGS)データがNCBIのシークエンスリードアーカイブ(SRA)[ref.1]やENA[ref.2]などの公共のデータベースに保管されている。これを書いている時点で、2019年3月に、SRAは約2.7 * 10…

ホモログ及びオルソログタンパク質を検索するwebデータベース orthoFind

相同配列を見つけることは、機能転移によるタンパク質の機能的アノテーションを可能にし、これらの配列が共通の進化起源を有するために推論され、そして進化研究の支持としてしばしば使用される[ref.1−3]。ホモログ内では、オルソログは種分化事象から進…