macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GigaScience

メタゲノム解析のために擬似ロングリードを作成する PLR-GEN

ハイスループットなシークエンスデータを用いたメタゲノム解析は、培養せずに環境試料中の微生物ゲノムを構築できる強力な手法である。しかし、メタゲノム解析は、複数の微生物のゲノムが混在してメタゲノムを構成しているため、特にショートリードしか利用…

高速でスケーラブルなパンゲノミクスツールボックス PIRATE

天然の細菌集団内の遺伝子分布をカタログ化することは、進化の過程や適応の遺伝的基盤を理解するために不可欠である。全ゲノム配列決定技術の進歩により、公開データベースに登録される細菌ゲノムの量は膨大なものとなっている。このような大規模なゲノムデ…

ハプロタイプゲノム配列を組み立てるHaploMaker

二倍体生物において、全ゲノムハプロタイプの構築は、ヘテロ接合型一塩基多型の対立遺伝子を正確に同定し、正しい相同染色体に割り当てることに依存する。このように対立遺伝子を適切に配置することで、ハプロタイプと呼ばれる染色体上の一塩基多型の組み合…

ショートリードメタゲノミクスデータから薬剤耐性を分類する AMR-meta

抗菌剤耐性(AMR)は世界的な健康問題である。微生物サンプルのハイスループットなメタゲノムシークエンシングにより、精選されたAMRデータベースとの比較によるAMR遺伝子のプロファイリングが可能になる。しかし、データベースの不完全性や、シークエンシン…

メタゲノムとRNA seqにも対応したONTのロングリードのシミュレータ Trans-NanoSim

第3世代の1分子RNAシーケンサーは、第2世代のシーケンサーと比較して、ロングリードを生成することによりアイソフォームレベルの転写物の特性解析が容易になるという、これまでにない利点を備えている。特に、Oxford Nanopore Technologyのシーケンシングプ…

マッピングのローレンツ曲線を生成する bam-lorenz-coverage

Githubより bam-lorenz-coverageはBAMファイルから直接ローレンツプロットやカバレッジプロットを簡単に作成できるフリーソフトです。また、テーブルをテキスト文書として出力することができるので、カスタムプロットを作成することも可能です。また、特定の…

バリアントコーラー 16GT

16GTは、イルミナ社の全ゲノムおよび全エキソームシーケンスデータ用のバリアントコラーである。16GTは、新しい16の遺伝子型の確率モデルを使用して、一塩基多型と挿入および欠失のコールを単一のバリアントコールアルゴリズムに統合している。36コアのサー…

SOAPdenovo-fusionを使ってmegahit アセンブリのscaffoldingを行う

SOAPdenovo2のレポジトリより MEGAHITは、シングルセルシーケンシングデータとメタゲノムシスデータに対応していおり、SOAPdenovoと比較して、より少ないメモリ消費量でより長いコンティグを生成する。MEGAHITで生成されたコンティグをscaffoldingにするには…

VCFやBCF を扱う bcftools

2020 11/17 追記 2021 4/244 追記 2021 5/24 docker imageのリンク追加 2021 6/2 callコマンド追記 2021 9/17 論文引用 2021 10/1 追記 bcftoolsは変異をコールしてバリアントコールフォーマットのVCFを出力したり、VCFやBCF(VCFのバイナリーフォーマット)…

フェージングの品質を評価、改善する phaseME

同じDNA分子上でどの突然変異が発生しているかを検出することは、その結果を予測するために不可欠である。これは、ゲノム変異のphasingによって達成することができる。それにもかかわらず、最先端のハプロタイプphasingは、現在のところ、再構成されたハプロ…

(vertebrateなどの) ラージゲノムをアセンブルするためのパイプライン CSA

脊椎動物ラージゲノムの全ゲノムショットガン(WGS)アセンブリは、過去20年間のバイオインフォマティクス研究の重要なテーマだが、脊椎動物の大型ゲノムについては、単一のバイオインフォマティクスツールを用いて完全にアセンブリされた染色体を得ることは…

ゲノムのリアレンジメントを検出して視覚化する smashpp

2020 5/22 追記 ゲノムのリアレンジメントの研究は、染色体の進化や遺伝的疾患、ガンなどの研究に重要な役割を果たしており、その研究は非常に重要である。本研究では、2つのDNA配列間の小規模・大規模なゲノムリアレンジメントを検出し、可視化するためのア…

第3世代ロングリードを使ってアセンブリのギャップを閉じる TGS-GapCloser

2020 9/8 論文追記 2020 10/2 condaインストール追記 2020 10/9 helpとインストール手順更新 ゲノムシーケンシング技術の開発は、この10年間でコストの削減とムーアの法則を超えるスピードでスループットを向上させてきた[ref.1]。遺伝子配列データベースは…

microbiome研究のためのプラットフォーム iMicrobe

iMicrobeは、研究者自身のデータを公開し、精選された微生物のメタゲノムデータセットと分析のための高性能コンピューティング(HPC)メソッドに接続するプラットフォームである[ref.1]。過去10年間で、シーケンシングのコストはムーアの法則をはるかに上回…

メタゲノムのアセンブリ配列からファージやプラスミドを予測する PPR-Meta

Mobile genetic elements(MGE)として知られるファージとプラスミドは、原核生物や真核生物の間で遺伝情報を交換するとともに、水平遺伝子伝達(HGT)の主要な参加者である[ref.1]。そのようなエレメントは、宿主と相互作用することによって微生物群集を調…

ヒトとマウスの様々なアライナー用indexやアノテーションをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 2022/04/19 画像追加 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、そ…

ロングリードを使ってscaffoldsのgap closingを行うLR_Gapcloser

次世代シークエンシング( NGS)技術は、デノボアセンブリによるゲノム配列の低コストおよび高速構築を可能にする。 NGS技術の利点と共に、この10年間で、多くのゲノムプロジェクト(例えば、10Kゲノムプロジェクト[ref.1]や100K病原体ゲノムプロジェクト[re…

SRAのRNA seqデータを素早く比較・分析する Digital expression explorer 2(手持ちのデータにも対応)

2021 1/9 ツイート追記 10年前の最初の記述以来、RNAシーケンス(RNA-seq)はトランスクリプトームにおける強力な方法となり、非常に正確な遺伝子発現の定量を可能にした[ref.1]。シークエンシングのコストが下がるにつれて、RNA seqのデータは科学文献でよ…

オルソログとパラログを小メモリ使用量で高速探索する SwiftOrtho

2019 10/26 論文引用追加 2020 10/9 インストール手順の誤りを修正 Gene homology type classification は、種を越えてパラログおよびオルソログを同定することからなる。オルソログは共通の先祖遺伝子から分化後に進化した遺伝子であり、パラログはduplicat…

Nanoporeのbasecaller Chiron

Oxford Nanopore Technologies(ONT)によって最近マーケットに導入された、バイオエンジニアリングされたナノポアを介したDNAシーケンシングは、ゲノムのlandscapeを大きく変えた。 ONTナノポアシーケンシングデバイスであるMinIONの重要な技術革新は、DNA…

Nanoporeのシーケンシングリードをマッピングして分析できるwebサーバー nanopipe

近年、技術が絶えず改良され科学者や開業医を含む広範囲の顧客にとって利用しやすいためにDNAシーケンシングブームが起きている。メタゲノミクスから植物生理学、医学まで、多くの分野の研究者が、彼らの研究にシーケンシング実験を実施してきた。 Oxford Na…

k-merベースのスケーラブルなメタゲノムの全配列比較ツール Libra

ショットガンメタゲノミクスは、微生物群集の生物多様性と機能に対する強力な洞察を提供する。しかしながら、メタゲノム研究からの推論は、データセットのサイズと複雑さや既存のデータベースの可用性と完全性によって制限される。 de novo比較メタゲノミク…

よく似たゲノム情報を使い不完全なゲノム情報しか持たない種のRNA seq解析の精度を上げる自動化されたツール Necklace

2018 10/31、11/2 タイトル、コード等修正、docker追加 2021 3/9 出力例追記 シーケンシングされた種の数が増加しているが、ゲノムの大部分は不完全である。それらにはギャップが含まれていても、配置されていない領域が残っていてもよく、アノテーションが…

ハイブリッドアセンブリのためのアライメントフリー scaffolding graph構築ツール Fast-SG

2018 10/26 タイトル修正 ゲノム全体のデノボアセンブリの主要な課題は、リピートを解決することである[論文より 1,2]。リピートは、ゲノムの複数の位置で生じるほぼ同一のゲノム配列に対応する。この課題に対処するために、主に2つのタイプのアプローチが提…

ロングリードを使ってcontigのscaffoldingを行う LINKS

2019 6/1 help追加、インストール追記 ロングリードシークエンシング技術はここ数年で急速に成熟し、ゲノムアセンブリへのロングリードの利点は欠かせないものになった[論文より ref.1]。最近、複数グループがエラーの多いロングリードから完全なバクテリア…

メタゲノムのbinner評価ツール AMBER

ショットガンシーケンシングのMetagenomicsにより、微生物のコミュニティとそのメンバーを研究できる。進化的発散とこれらのメンバーの豊富さは大きな違いがあり、strainレベルの非常にclosely relatedなメンバーだったり、進化的に大きく離れていたり、豊富…

in silico mate-pairシーケンシングによってde novo アセンブリ改善を試みる cross-species-scaffolding

10/5 3stepコマンドの誤り修正 及びコマンド変更、コメント追加 正確で完全でアノテーションのついたゲノムは、種や個体の過去、現在、未来に関する豊富な情報を提供するため、医療や生物学の研究にとって非常に貴重なリソースとなっている[論文より ref.1]…

bamの分析に使うバイオインフォマティクスのツールキット goleft

2020 3/15 インストール追記、help更新 2020 4/19 追記 goleftはMIT licence下で提供されているバイオインフォマティクスのツールキット。GO言語で構築されている。 インストール Github リリース(リンク)からosx向けバイナリをダウンロードできる。パスの…

複数ファイルのk-merをカウントし、共通/固有のk-merを抽出する Genome Tester4

2020 12/29 タイトル修正 複数ファイルのk-merをカウントし、共通/固有のk-merを抽出できる Genome Tester4 =>複数ファイルのk-merをカウントし、共通/固有のk-merを抽出する Genome Tester4 GenomeTester4はk-merをカウントしたり、操作するためのパッケ…

RNA seqのエラーコレクションツール Rcorrector

2020 8/7 インストール追記 Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレ…