macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

多機能なNGS分析ツール BBtools 其の3BBMap追加コマンド

BBMapの追加コマンドについて紹介します。 BBMap Guide https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/bbmap-guide/ callvariants.sh Introducing CallVariants, a new variant caller in #BBMap! CallVariants is 81x faster than mpilu…

(ヒト、マウス向け)GO term enrichment解析を行う GOnet

ゲノムワイド研究のアウトプットは、通常、共有の発現パターンを示す遺伝子(またはそれらのタンパク質産物)のリストである。例えば、これらは、疾患の有無にかかわらずドナー群において差次的に発現される遺伝子、または生物学的サンプルの特定の画分にお…

bamファイルを扱う bamM

BamMはBAMファイルを解析するpythonにラップされたcライブラリである。 このコードはPySam (link) のすべての機能を実装するものではないが、PySamよりも高速で安定したBAMファイルのインターフェースを提供することを目的としている。 HP http://ecogenomic…

メタゲノムのファージ配列分析webサーバー VirMiner

2019 6/15 誤字修正 ウイルスは、それらの恒常性および進化に寄与する微生物群集の必須の構成要素である。ヒトの腸内細菌叢のウイルス群集はバクテリオファージが支配的である[ref.1]。ファージは遺伝子水平伝播(HGT)[ref.2]によって細菌群集の構造と機能…

メタゲノムアセンブリをbinningする CONCOCT

ショットガンシーケンシングは、複雑な微生物群集からのゲノムの再構築を可能にするが、全ゲノムを再構築することはできないので、ゲノムの断片をビンに入れることが必要である。 この論文では、CONCOCTを提示する。これは、コンティグをゲノムに自動的にク…

ロングリードのドラフトアセンブリをpolishする marginpolish

2019 6/13 tweetリンク追加、誤字修正 MarginPolishはグラフベースのアセンブリのpolisher。入力としてFASTAアセンブリとインデックス付きBAM(ONTのアセンブリ配列へのアラインメント)を受け取り、polishingしたFASTAアセンブリを生成する。 MarginPolish…

CAP3

備忘録を兼ねて紹介します。論文はこれまで5000回以上引用されています。 CAPシーケンスアセンブリプログラムの第3世代について説明する。 CAP3プログラムには多くの改良と新機能が含まれている。 プログラムは、5 'および3'の低品質のリード領域を切り取…

Long terminal repeats retrotransposonsをゲノム配列からde novoで発見する LtrDetector

以前は「ジャンクDNA」と考えられていたゲノムの遺伝子間領域の配列は、生物学者の間でますます注目を集めている。これらの領域の特に顕著な特徴は、一種のリピート配列である転移因子(TE)の普及率である。 TEには、RNAを使用して複製して自分自身を「コピ…

様々なデータベースを使ってヒトミトコンドリア変異のアノテーションを行う hmtnote

2019 6/11 データベース追記 HmtNoteは、VCFファイルからヒトのミトコンドリアのバリアントにアノテーションを付けるためのPythonパッケージである。バリアントは、基本、相互参照、変動性、予測のサブセットにグループ化された幅広い情報を使用してアノテー…

contigやシーケンシングリードのリファレンスへのアラインメントを複数の方法で視覚化する Alvis

2019 6/10 誤字修正 2セットの配列間のアラインメントを見つけることは、バイオインフォマティクスにおける基本的な作業である。ロングリードの解析、アセンブリ結果の評価、またはターゲットキャプチャープロトコルの評価では、リファレンスゲノムまたは遺…

ディープCNNによってONTのバーコーディングロングリードをdemultiplexingするdeepbinner

Multiplexing(バーコード)は、ハイスループットDNAシーケンス能力を複数のサンプルに分散させるために使用される一般的な方法である[ref.1]。各入力DNA試料について、独自のバーコードがシーケンシング用に調製されたDNA分子のライブラリーに組み込まれる…

環状RNA(circRNAs)を検出する ACValidator

環状RNA(circRNAs)は、エキソンが互いにバックスプライスするときに形成される進化的に保存されたRNA分子種である。これらのバックススプライシングジャンクションを検出するための現在の計算アルゴリズムは分岐した結果を生じるので、それ故、真のポジテ…

GO enrichment解析データベース agriGO v2.0

2019 6/13 追記 エンリッチメント解析は、大量の遺伝子リストに関連する機能を決定し、生物学的過程を解釈する可能性を高めるための効率的かつ迅速な方法である(ref.1)。Biological processes(BP)、molecular functions(MF)、cell components(CC)に…

ショートリードとロングリードのhybrid-assemblyにより de novo transcriptomeアセンブリを行う IDP-denovo

新世代のシークエンシング技術がトランスクリプトームの探索において実質的な進歩をもたらすにつれて、スプライス検出および転写物再構成などの関連するバイオインフォマティクス方法が数多く開発され、様々な種で広く使用されてきた(Grabherr et al、2011;…

metaplasmidSPAdes

2019 6/7 出力例 プラスミドは、それらの生存および適応にとって重要なさらなる遺伝物質を細菌宿主に提供するクロモソーム外に独立して複製されるDNA分子である。シーケンシング時代より昔は、抗生物質耐性または難治性有機化合物を分解する能力など、それら…

tumor heterogeneityを見積もるGenoClone

腫瘍の進化は、連続的な体細胞変異とダーウィン的な自然淘汰によって引き起こされるクローン増殖の反復過程である[ref.1、2]。したがって腫瘍は、腫瘍内異質性と呼ばれる顕著な異なる細胞集団(「サブクローン」と呼ばれる)で構成されている。腫瘍サンプル…

転写領域アノテーションのためSRAのデータをサンプリングしてマッピング率等を評価する VARUS

2019 6/3 何も表示されないバグを修正 非常に大量の次世代シークエンシング(NGS)データがNCBIのシークエンスリードアーカイブ(SRA)[ref.1]やENA[ref.2]などの公共のデータベースに保管されている。これを書いている時点で、2019年3月に、SRAは約2.7 * 10…

ホモログ及びオルソログタンパク質を検索するwebデータベース orthoFind

相同配列を見つけることは、機能転移によるタンパク質の機能的アノテーションを可能にし、これらの配列が共通の進化起源を有するために推論され、そして進化研究の支持としてしばしば使用される[ref.1−3]。ホモログ内では、オルソログは種分化事象から進…

(ウィリス向け)高感度なHMMベースのアライナ ngshmmalign

現在のシーケンシンでは、NGSのリードのアラインメントはbwa(http://bio-bwa.sourceforge.net)やbowtie(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)などのアライナを使用して行われる。 これらのアライナは高速で、大きな真核生物ゲノムの…

(ヒト向け)matched tumor normal ペアからsomaticとgermlineのCNVイベントを検出する TumorCNV

生殖細胞系コピー数変異(CNV)および体細胞コピー数改変(SCNA)は、ガンにおいて重要な役割を果たすことが示されている。次世代シーケンシング(NGS)技術の急速な発展に伴い、全ゲノムシーケンシング(WGS)は、ガン研究および臨床診療においてゲノムワイ…

ファージゲノムのORFを予測する PHANOTATE

2019 5/30 タイトル修正、関連ツール追加 バクテリアに感染するウイルスであるファージは、バイオインフォマティクスに独自の課題をもたらす。どのくらいの量のDNAをキャプシドにパッケージングすることができるかには限界があり、したがってファージゲノム…

k-merカウントツール Squeakr

Massively parallel high-throughput sequencing (HTS) 技術の登場により、シーケンシング能力は劇的に増加している。増加するHTSデータに対処するための新しい計算方法の多くは、k-mer(k塩基の文字列)をシーケンスの分析の最小単位として使用する。例えば…

ロングリードのメタゲノムのアセンブリを行う metaFlye

2019 5/28 誤字修正 (Pacific BiosciencesまたはOxford Nanoporeシーケンサーによって生成された)一分子ロングシーケンシングリードによる細菌ゲノムアセンブリは、ショートシーケンシングリードアセンブリと比較して、アセンブリされたゲノムの隣接性を実…

ショートシーケンシングリードとアセンブリの評価ツール SQUAT

最近の次世代シークエンシング技術により低コストで提供される超高スループットは、特に非モデル生物の全ゲノムシークエンシングプロジェクトの急速な成長を引き起こした[ref.1、2]。広域分類群のための大規模ゲノムプロジェクト、例えば脊椎動物種のためのG…

祖先タンパク質コード遺伝子を探す AnABlast

2015年のペーパーより ゲノム配列中のタンパク質をコードする遺伝子および偽遺伝子を同定するための新しい方法の開発は、ゲノム時代における主要なチャレンジの一つである。実験的アプローチによってもたらされた並外れた支持に加えて、現在のゲノム生物学に…

(ヒト向け)超高感度なマルチサンプルバリアントコーラー Needlestack

大規模並列シーケンシング、または次世代シーケンシング(NGS)は、従来のSangerシーケンシングと比較してスループットの大幅な増加と低存在量のバリエーションを検出するこれまでにない能力により、遺伝的バリエーションの探索方法に革命をもたらした。シー…

推定antibiotic resistance genes を予測するDeepARG

抗生物質耐性は緊急かつ高まる世界的な公衆衛生の脅威である。抗生物質耐性による死亡者数は、2050年までに年間1000万人を超え、世界中で約100兆米ドルかかると推定されている[ref.1-3]。抗生物質耐性は、通常、バクテリアが抗生物質への曝露から生き残ると…

(ヒト向け)8つの異なるバリアントコーラーとデータベースを組み合わせてフィルタリングし、アーティファクトを除きながら高感度なバリアントコールを行う自動パイプライン appreci8

Precision medicine(wiki)は、患者ケアに革命をもたらす。パーソナライズドされた治療戦略は、あらゆる患者に最も適切な治療を提供するためにますます適用されている。ガンを含む遺伝的に関連する疾患に関して個別化医療を実現する重要な側面は、突然変異…

OrthoVenn2

相同遺伝子(Homologous genes)は、主に2つのクラス、オルソログおよびパラログに分類できる。オルソログ遺伝子は、種分化イベント中の共通の祖先から発生し(ref.1)、通常、近縁種間ではsyntenicになる。パラログも共通の祖先を共有しているが、種内のシ…

(メタゲノム向け)高効率なプロテインレベルのアセンブリツール PLASS

メタゲノム研究の主な制限は、ショートリードの大部分(土壌で80% - 90%[1])を、遺伝子およびタンパク質配列の予測を可能にするのに十分な長さの連続した配列(contigs)にアセンブリすることができないことである。 低存在量のゲノムはアセンブリが困難…