macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

filtering

遺伝子アノテーションをフィルタリング、解析、変換する gFACs

公開されたゲノムには、オープンリーディングフレーム、開始点、スプライスサイト、および関連する構造的特徴の同定に関連する問題を表す誤った遺伝子モデルが含まれていることが多い。これらの矛盾の原因は、ロングリードのアラインメントと予測された遺伝…

マイクロバイオーム関連に特化したsamtoolsの拡張 msamtools

msamtoolsは、マイクロバイオームデータ解析、特にショットガンメタゲノミクスやメタトランスクリプトミクスデータを解析する際によく使われる便利な機能を提供している。既にいくつかの論文で使用されている。 インストール M1 macstudioでテストした(rose…

大規模な系統学的データセットを削減する Treemmer

大規模な塩基配列データセットは、視覚化するのも扱うのも難しい。さらに、それらはしばしば自然の多様性のランダムなサブセットを表しているのではなく、調整されていない便宜的なサンプリングの結果である。その結果、冗長性やサンプリングバイアスに悩ま…

(RNA seqの下流解析のための)深層学習ベースのスプライシングジャンクション予測ツール Splam

2023/08/18更新、タイトル変更 イントロンを除去するためにメッセンジャーRNAをスプライシングするプロセスは、遺伝子や遺伝子バリアントを作り出す上で中心的な役割を果たしている。ここでは、深層残差畳み込みニューラルネットワークに基づく、DNA中のスプ…

宿主汚染を正確に除去する Hostile

2023/12/22 論文引用 臨床サンプルから作成された微生物配列は、倫理的および法的な理由から除去しなければならないヒト宿主配列で汚染されていることが多い。バリアントコーリングやde novoアセンブリなどの下流解析に不利になるような標的微生物配列を不用…

汚染シークエンシングリードを簡単に除外する GenomeFLTR

過去10年間、シーケンス技術の進歩により、ゲノムデータは飛躍的に増加した。これらの新しいデータは、遺伝子やゲノムの進化や機能に関する我々の理解を劇的に変化させてきた。シーケンサー技術の向上にもかかわらず、汚染されたリードを特定することは、多…

宿主ゲノムにマッピングして宿主と汚染菌のロングリードを分けることができるか試す

2023/03/12 誤字修正 ロングリードを使ったゲノムプロジェクトが爆発的に増えており、現在ではほとんどのゲノム解読プロジェクトでロングリードのシークエンスが主要に使用されています。ロングリードのゲノムプロジェクト増加に伴って、想定しない汚染生物…

GTF/GFFファイルのツールキット AGAT

2023/02/27 intron addに追記 HPより AGATは、あらゆる種類のGTFやGFFの欠落情報(特徴や属性)をチェック、修正、追加し、完全でソートされた標準的なgff3形式を作成する能力を備えている。長年にわたり、GTF/GFFフォーマットファイルに関連するあらゆるタ…

配列アライメントのための高速かつ効率的なプリアライメントフィルタ Shouji

ほとんどのバイオインフォマティクス分析における最も基本的な計算ステップの1つは、2つのゲノム配列間の相違点/類似点の検出である。Edit distanceとペアワイズアラインメントは、このステップを実現するための2つのアプローチで、近似文字列マッチングとし…

1個のメタゲノムbin配列へマッピングされたロングリードの抽出

2023/02/13 誤字修正 ロングリードを使ったメタゲノムシークエンシングが徐々に増えてきています。一般に、ロングリードシークエンシングでは、メタゲノムアセンブリによってショートリードよりも連続性の高いMAGを得ることができます。連続性の高いMAGが得…

系統樹ファイルをチップ名(leaf)でフィルタリングする filter_tree.py スクリプト

8/8 誤字修正 QIIME1のfilter_tree.pyスクリプト(QIIME2ではqiime phylogeny filter-tree)は、系統樹ファイルから入力されたリスト(OTU名、ゲノム名など)で見つかったツリーのチップだけを保持するサブツリーを出力する。-negateオプションのTRUEフラグ…

大規模な遺伝子バリアントアノテーションのための統合的かつ対話的なプラットフォーム Annotation Query (AnnoQ)

Annotation Query (AnnoQ) (http://annoq.org/)は、ヒトの遺伝子バリアントに対して包括的かつ最新の機能アノテーションを提供するために設計されている。このシステムは、Haplotype Reference Consortium (HRC) の約3900万個のヒトバリアントに、WGSAによる…

(スモールゲノム)汚染されたシークエンシングデータをフィルタリングしながらアセンブリする半自動化されたパイプライン WGA-LP

DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行す…

fastqから正確に汚染を除去する CONSULT

多くのバイオインフォマティクスのアプリケーションには基本的な疑問がある。あるシーケンスリードは、ある広範な分類群のゲノムからなる大規模なデータセットに属しているのか、たとえそのセットの中で最も近いマッチがクエリから進化的に乖離しているのか…

複数のリファレンスに同時にマッピングしてリードを分ける BBSplit

SEQanswersより。一部改変(リンク) BBSplitは、BBMapを用いて、複数のリファレンスに同時にマッピングすることで、リードをビン分け(binning)します。リードは、最もよくマップされるリファレンスのビンに分けて書き出されます。また、曖昧さ回避のオプ…

メタゲノム、メタトランススクリプトーム、ncRNAのシークエンシングデータからrRNA配列を正確かつ高速に検出・除去する RiboDetector

2022/03/11追記 2023/03/05 追記 トランスクリプトームやトランスラトーム技術の進歩により、RNAの活性プロファイルやRNAによる制御機構を深く研究することが可能になった。リボソームRNA(rRNA)配列は細胞内RNAの中で非常に豊富に存在するが、ターゲット配…

バリアントフィルタリングとポリッシングを行う Merfin

ノイズの多いロングリードから正確なジェノタイピングを行い、コンセンサスの質を向上させるために、リードマッピングやバリアントコーリングの手法が広く用いられている。バリアントコールの精度は、リードの品質、リードマッピングアルゴリズムとバリアン…

メタゲノムアセンブリのbin配列を評価する metashot/prok-quality

メタゲノムシークエンスにより、大規模なゲノムの同定とゲノムの特性解析が可能になる。Binningとは、未知の細菌や古細菌の配列断片(メタゲノムコンティグ)の複雑な混合物からゲノムを回収するプロセスである。メタゲノムから回収したゲノムの品質を評価す…

メタゲノムコンティグの分類を行うユーザーフレンドリーなツール SprayNPray

培養した微生物のisolatesや真核生物の個体のショットガンシーケンス(全ゲノムシーケンス)や微生物群集のショットガンシーケンス(メタゲノミクス)は、生物学において一般的になってきている。シークエンスされたサンプルには、複数の生物種が含まれてい…

ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

本論文では、ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定するためのツールセットと関連リソースを紹介する。fastvは、シーケンシングデータ中に存在する微生物の配列を検出し、対象となる微生物を同定し、微生物ゲ…

ターゲット配列に関係するシークエンシングリードを集めるMIRAのmirabaitコマンド

MIRAbait: 256bpまでのkmerのための「grep」のようなツール mirabaitは、リードコレクションの中から、ターゲットベイトとして定義された配列と部分的に類似した、あるいは等しいリードを選択する。類似性とは、ベイト配列と選択されるスクリーニング配列の…

Bowtie 2を使って素早くホスト由来のリードを除く

2021 4/16 タイトル変更、文章修正, 画像差し替え 2022/07/01、09/07 追記 2023/10/17 追記 Bowtie 2の--un-concオプションを使うと、リファレンスに適切にマッピングされなかったペアエンドリード(discordant read pairs)を別出力できる。このオプション…

BLAST結果をソート・フィルタリングする BLAST-QC

NCBIのBasic Local Alignment Search Tool (BLAST)は、バイオインフォマティクスおよびゲノミクス研究のための配列アライメントおよび同定のための好ましいユーティリティである。NCBIのBLASTソフトウェアを使用している研究者の間では、大規模なBLAST検索の…

メタゲノムの機能的アノテーションを行う自動化されたパイプライン MetaLAFFA

2021 2/8 mambaインストール追記 微生物群集の機能的能力の解析は、マイクロバイオームに基づく研究の重要な要素となっており、腸内マイクロバイオームとうつ病[ref.22]、自閉症[ref.18]、2型糖尿病[ref.16]などの宿主の状態との間の関連性についての新たな…

UCSC、NCBI、Ensemblからゲノムをダウンロードする genomepy

2021 10/9 コマンドの修正(バージョンアップ) タイトルの通りのツール。簡単に紹介します。 インストール 依存 tabix genePredToBed genePredToGtf bedToGenePred gtfToGenePred gff3ToGenePred conda install -c bioconda -y ucsc-genepredtobedconda ins…

マルチプルシーケンスアラインメント結果を閲覧したりフィルタリングする MView

MViewは、シーケンスデータベース検索またはマルチアライメントの結果を抽出および再フォーマットし、オプションでWebページレイアウト用のHTMLマークアップを追加するコマンドラインユーティリティである。 一般的な形式に変換するためのフィルターとしても…

MAF(Multiple Alignment Format)を様々な条件でフィルタリングする MafFilter

進化的比較ゲノム解析および集団ゲノム解析は、2つ以上のゲノム間の相同なヌクレオチド位置を記録するゲノム配列のアラインメントに基づいている。遺伝子アラインメントは3種類の文字のedit(ミスマッチ、挿入および欠失)のみを用いて記載されているが、ゲ…

ヒトのバリアントを視覚化したりフィルタリングできるwebツール VCF/Plotein

エクソームシークエンシング(ES)は、多数のヒト表現型および疾患に寄与する遺伝的変異を同定することにおいて非常に成功している (Gilissen et al., 2011; Do et al., 2012).。しかしながら、疾患を引き起こす変異および突然変異を同定する実際のプロセス…

rRNAのアンプリコンシーケンスのトリミングを行う FIGARO

マイクロバイオーム研究は、巨視的世界にとっての微生物コミュニティの重要性についての途方もない洞察を提供し続けている。ハイスループットDNAシーケンシング技術(すなわち、次世代シーケンス)は、微生物分類群を同定し、生物学的および環境試料の多様性…

GFF ファイルのユーティリティ Gffread

2019 10/15 誤字修正 2020 7/27 help更新 2020 8/14 コマンド追記 2020 12/25 誤字修正 多くのバイオインフォマティクスプログラムは、遺伝子および転写産物をGFF形式(General Feature Format)で表し、ゲノム上の遺伝子および転写産物の特徴(染色体または…