macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2015

CheckMのplotコマンド

checkmのゲノムアセンブリ評価コマンドについて以前紹介した。 ここでは、タイトルの通りCheckMのplotコマンドについて簡単に紹介する。このコマンドはbinningして得た一連のbinned.fastaのディレクトリに対して実行でき、ラフに各binを評価することができる…

gene featureを視覚化するwebサービス GSDS 2.0

遺伝子のエクソンやイントロンの組成や位置などの遺伝子の特徴を視覚化することにより、生物学者がアノテーションを統合し視覚的なプレゼンテーションを提供できるようになり、publication用の高品質な図の作成も支援される。したがって、FancyGene(Rambald…

biological sequences専用のイラストレーター IBS

簡潔で、繊細で正確な画像は、説明だけよりも大きな利点がある。さまざまな機能要素を備えた生物学的シーケンスのグラフィカルな表現は、分子生物学的機能の調査の過程で得られた科学的発見の効率的な導入と解釈のための基本である。現在、生物学者は主にMic…

VT

シーケンシングデータからバリアントをコールする方法は、一塩基多型(SNP)を超えて、短い挿入および欠失(indels)、短いタンデムリピート(STR)、MNP、構造変異(SV)などがターゲットになってきている。これらの異なるクラスのバリアントは、通常、Vari…

Uniprotデータベースに対する高速なタンパク質ホモロジーサーチを行う SANSparallel

近年、シーケンスの数が著しく増加している。これにより、データベース検索(ref.1〜4)がますます長くなり、無料のコンピューティングサービスと事前に計算されたデータベースが閉鎖に追い込まれたりまたは依存するようにクラウドソーシング(ref.5〜7)に…

UniProt のUniRef データベース

UniRefデータベース (UniProt Reference Clusters) は、UniProtナレッジベースと選択されたUniParcレコード(UniParc link)からクラスター化されたシーケンスセットを提供し、複数の解像度(100%、90%、50%の同一性)でシーケンススペースを完全にカバー…

ホモログ及びオルソログタンパク質を検索するwebデータベース orthoFind

相同配列を見つけることは、機能転移によるタンパク質の機能的アノテーションを可能にし、これらの配列が共通の進化起源を有するために推論され、そして進化研究の支持としてしばしば使用される[ref.1−3]。ホモログ内では、オルソログは種分化事象から進…

OrthoVenn2

注意 2019 6/24 追記 6/25 編集 すでに比較されているデータについては問題ありませんが、手持ちのmulti-fsstaをアップロードして調べる場合、シングルラインのfastaににしておかないとそれぞれのfastaの先頭行のみ使ってしまうようです。以下のperlスクリプ…

サンガーシーケンシングリードを自動でアセンブリしてアノテーションを行うwebサーバ deFUME

機能選択は、遺伝子の発見および機能的に検証されたアノテーションのための強力な技術を表す[ref.1、2]。この手法は、ランダムにクローニングされたゲノムDNAまたはメタゲノムDNAを、通常は短い(1〜3 kb)DNA断片として発現ベクターに組み込むことに依存し…

メタゲノムのアセンブル配列からウィルス由来配列を見つける VirSorter

細菌と古細菌に感染するウイルスはこれまでにサンプリングされたあらゆるタイプのバイオームにありふれており、豊富に存在する。ウイルス - 宿主相互作用は地球化学的循環からヒトの健康まで生態系機能を変化させる(Fuhrman, 1999; Wommack & Colwell, 2000…

非常に低いカバレッジのWGSデータからTEを推定する Transposome

ゲノムのリピートのアノテーションは、利用可能なツールが数多くあり、すべてが性能や精度に関して分析されていないという理由から、挑戦的な課題である(Leret、2010)。転移因子(TE)を同定するための現在のアプローチは、ゲノムアセンブリ(Ellinghaus e…

ロングリードを使ってcontigのscaffoldingを行う LINKS

2019 6/1 help追加、インストール追記 ロングリードシークエンシング技術はここ数年で急速に成熟し、ゲノムアセンブリへのロングリードの利点は欠かせないものになった[論文より ref.1]。最近、複数グループがエラーの多いロングリードから完全なバクテリア…

クラスタリングツール Starcode

すべてのシーケンシング技術はある程度の不正確さを持っている。例えば、Illuminaプラットフォーム(Margulies et al、2005)は、 主に置換からなる1〜2%のエラー率を有し(Dohm et al、2008; Nakamura et al、2011)、PacBioプラットフォームは挿入および…

BatAlign

シーケンシングリードのリファレンスゲノムへのアライメントは、通常、ほとんどのゲノム解析の第一歩で歩い。しかし、全リードがリファレンスゲノムを正確に表していないため、シーケンシングリードをゲノム変異をまたいでリファレンスゲノムに戻すことは難…

構造変化に関係するリードを可視化する svviz

人間の目にはデータの視覚的表現からパターンを識別する比類のない能力がある。高スループットシークエンシングからの突然変異の同定は大部分が自動化されているが、integrative genomics viewer(IGV; Robinson et al、2011)などのツールを用いた推定変異…

gANIを計算するツール ANIcalculator

微生物は数と多様性の両方で生命の樹木を支配しており、その自然分類を困難かつ重要なものにしている。動物では、種は一般に交配可能な生物群と定義されるが(biological species concept)、この定義は無性生物の集合体に直接適用することはできない。結果…

Procaryotesの自動アセンブリパイプライン Mypro

Pos 最近の全ゲノムシーケンシング(WGS)技術のコストの低下は、様々な原核生物のシーケンシングの増加をもたらした。典型的なゲノミクスプロジェクトでは、データマイニングの前にシーケンシングリードを処理する必要がある(Hasman et al、2014; Rhoads e…

MetaBAT

2019 8/28 追記 2019 9/30 metabat2紹介リンク追加 ハイスループットのメタゲノムショットガンシークエンシングは、環境から採取された微生物群集を直接研究するための強力なツールであり、それによって培養から解放され、また培養から生じる可能性のあるバ…

バクテリアのシーケンシングデータ分析ツール GenomePeek

シーケンシングコストが低下するにつれて、バクテリアゲノムの配列が増加している。現在、NCBI(Benson et al、2009; Sayers et al、2009)、SEEDデータベース(Overbeek、Disz&Stevens、2004)には約15,000種類の原核生物ゲノムがあり、約75,000種類のアセ…

Procaryote向けの自動アセンブリパイプライン A5-miseq

ゲノムアセンブリは、rawシーケンシングデータから始まり、スキャホールディングされたコンティグで終わる全データ処理ワークフローからなる。この手順は、アダプタのトリミング、クオリティフィルタリング、エラー訂正、コンティグの作成、アセンブリへのリ…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

gene-targeted assembler: aTRAM2.0

大規模なシーケンスからの迅速な標的遺伝子座特異的なアセ​​ンブリは、現在、医学から広範囲の系統学までの応用分野で、生物学科学全体で一般的に使用されている。ターゲットアセンブリ手法は、完全なゲノムのデノボアセンブリと比較してアセンブリの計算規…

トランスクリプトームのblast比較結果を統合し、ベン図を描く VennBLAST

ハイスループットシークエンシングは広範な技術となり、進化的研究を含む様々な研究分野でアクセス可能となっている。ゲノムが利用できない生物の転写産物をシーケンスし、注釈を付ける能力は、分子進化の分野における生物学者、特に非モデル生物を含むルー…

CircosをWeb上 で利用できる ClicO FS

Circos(Krzywinski et al、2009)(HP)は、ビジュアルデータを環状形式で表現するPerl言語ベースのツールである。ネイティブのCircosソフトウェアは、コマンドラインインターフェイス(CLI)を介して提供されている。ソフトウェアのインストールと設定は、…

メタゲノムアセンブリ結果を可視化してマニュアルビニングを助ける gbtools

ほとんどの環境微生物が難培養性であることを考えると、microbial ecologyの分野では、metagenomicsは全コミュニティの機能を調べる手段に由来していた(論文より Handelsman、2004; Kunin et al、2008; Teeling and Glockner、2012)。研究者は、微生物群全…

ヒトゲノムの統合変異検出パイプライン speedseq

8/7 ホストからジョブを投げるようにコマンド修正 8/8 realignコマンド修正 第2世代のDNA配列決定技術の技術的進歩により、全ゲノム配列決定(WGS)データを生成するために必要なコストと時間が削減され、これまでにない深さと範囲でヒトゲノムを調査するこ…

ハプロタイプフェージングを行う whatshap

2019 3/18 インストールの流れ修正 2019 3/26 誤字修正 2019 11/8 タイトル修正 ヒトゲノムは二倍体であり、すなわち、その常染色体の各々は2コピーである。これらの親のコピーは、異なる一塩基多型(SNPs)の影響を受ける。変異がどちらの染色体由来かアサ…

ロングリードを使い環状DNAかどうか調べる Circlator

2019 2/26 condaインストール追記 デノボアセンブリの課題は、世界初の自動DNAシーケンサーの登場以来ずっと存在していた。初期ゲノムシーケンスデータのアセンブリは、大きく2つの戦略に基づいていた:BAC / YACタイリングまたは全ゲノムショットガン[論文…

SAMTools互換の高速なsam,bam,cram処理ツール elprep

2019 7/28 コマンド修正 2019 8/3 リンク追加 一般にDNA配列解析はマッピングとそれに続く分析からなる(論文 図1)。マッピング段階では、BWA [論文より ref.1]のようなアライメントツールを介して既知の参照ゲノムにマッピングされる。その後、マッピング…

高速なRNA seqのマッピングツール HISAT2

2019 6/18 コマンド追記 2019 6/26 インストール追記 2019 6/28 samtoolsコマンドエラー修正 RNA-seqは、2008年に導入されて以来、遺伝子発現、転写体構造、長い非コード化RNAと融合転写物の同定のためのツールとして普及してきた(論文より ref.2-5) RNA-s…