macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2014

InterProScan 5

2014年の論文より ロバストな大規模配列解析は、生物学者が何百万もの配列の特徴を明らかにしようとしている現代のゲノム科学における大きな課題である。ここでは、広く使われているタンパク質機能予測ソフトウェアパッケージInterProScanの新しいJavaベース…

アノテーションパイプライン MAKER

2008年の論文 移植可能で容易に設定可能なゲノムアノテーションパイプラインであるMAKERを開発した。MAKERの目的は、研究者が独立して真核生物ゲノムのアノテーションを行い、ゲノムデータベースを作成することである。MAKERはリピートを識別し、ESTやタンパ…

系統マーカー遺伝子に分類群を割り当てる AmphoraNetと結果を視覚化するAmphoraVizu

メタゲノム解析はここ数年、目覚しい発展を遂げた。今日、遺伝子配列決定の専門家だけでなく、他の専門分野の多くの研究室が、臨床サンプルや環境サンプルから得られたDNA配列を解析する必要がある。メタゲノム解析データの系統解析は、生物学者やバイオイン…

vFamsのprofileHMMsFromFASTA.pyスクリプト

profileHMMsFromFASTA.pyは、RefSeqのような大規模な(ウイルスの)タンパク質セットからカスタマイズされたプロファイルHMMを構築するスクリプト。 スクリプトの<DESCRIPTION>より(一部改変) このスクリプトは、タンパク質配列を含むFASTAファイルを入力とし、最終的に</description>…

DESeq2

2022/05/09 誤字修正、インストール手順修正(ggplot) 2022/06/09 heatmapのコマンド修正. 10/24 インストール手順修正(Rのバージョン4指定) 2023/06/18 追記 2024/02/27 docker image例追記 比較ハイスループットシーケンスアッセイでは、RNA-seqにおける…

ショートリードから全ゲノム系統樹の自動再構築を行う REALPHY

微生物の進化動態の研究は、手頃な価格のハイスループットシーケンス技術の利用により、一度の研究で何百もの関連する分類群の全ゲノム配列の解読が可能となり、大きく変貌を遂げてきている。一般に、これらの分類群の系統樹を再構築することは、あらゆる進…

シーケンスアラインメントやHMMER3のHMMプロファイルをlogoで視覚化する skylign

ロゴは、分子生物学において、配列の保存パターンをコンパクトなグラフで表現するためによく用いられる。ロゴは、配列アラインメントや隠れマルコフモデルに含まれる情報を、各位置に文字のスタックを描くことで表現する。スタックの高さはその位置の保存度…

バイサルファイト処理されたリードのマッピングを行う bwa-meth

バイサルフィット処理された配列をアライメントする新しいツールbwa-mesを紹介し、既存のアライナーと比較する。結果、クオリティトリミングを行わなくても、高速で正確なアライメントが可能であり。下流のツールですぐに使用できることを示す。ターゲットシ…

MSIsensor

マイクロサテライト不安定性(MSI)は、より大きなゲノム不安定性の重要な指標であり、リンチ症候群をはじめとする多くの遺伝病と関連している。また、MSIの状態は、大腸がんや子宮内膜がんなどの複数のがん種において、良好な生存率を示す独立した予後因子…

ANGSD

ハイスループットのDNAシーケンス技術は、膨大な量のデータを生成する。何千ものサンプルを同時に解析するためには、高速で柔軟性があり、メモリ効率の良い実装が必要である。ここではANGSDと呼ばれるマルチスレッド・プログラム・スイートを発表する。この…

Multiple Sequence Alignmentの結果を視覚化する Sequence Bundles

本研究では、複数の配列アライメント(MSA)を表現するための新しいデータ可視化手法であるSequence Bundlesを紹介する。既存のバイオインフォマティクスのデータ可視化手法(Sequence Logoなど)の主な限界を特定し、解決するために、Sequence Bundlesを用…

MOSAIKアライナー

MOSAIKは、第2世代および第3世代のシーケンシング リードをリファレンスゲノムにマッピングするための安定した高感度のオープンソース プログラムである。現在のマッピングツールの中でも特に優れているMOSAIKは、Illumina、Applied Biosystems SOLiD、Roche…

バクテリアの遺伝子配列を比較する LS-BSR

2021 1/18 わかりにくい説明を修正 細菌単離株からの全ゲノム配列データが安価に入手できるようになるにつれ、配列データと生物学的観察結果を相関させる計算手法が必要とされている。ここでは、数百から数千の細菌ゲノムの遺伝的内容を迅速に比較し、調査し…

mobile element を検出する Mobster

転移因子(ME)は自律的にコピーしたりゲノム上を移動したりすることができるDNA配列だが、その高度に反復的な配列構造のために検出が困難である。MEは、ゲノム構造を変化させる主要な進化ドライバーであるだけでなく、機能的に重要な領域に挿入され、遺伝子…

WikiPathwaysのCytoscapeプラグイン WikiPathways App for Cytoscape

このホワイトペーパーでは、Cytoscape用のオープンソースWikiPathwaysアプリ(http://apps.cytoscape.org/apps/wikipathways)を紹介する。WikiPathwaysアプリは、データの視覚化とネットワーク分析のためにバイオロジカルパスウェイをインポートするために…

DNA解析ソフト4 次世代シークエンシングデータも扱える Unipro UGENE その1

2020 1/6 タイトル修正 2020 3/2 わかりにくい説明を修正 明けましておめでとうございます。今年もよろしくお願い致します。 2020年初回はDNA解析ソフトUGENEを紹介します。発表はかなり前ですが、今でもアップデートが続いており、塩基配列の編集のみならず…

ユニークな変異や全サンプルの変異HTMLレポート作成機能を持つbreseqのユーティリティツール gdtools

2020 1/15 コマンド追記 2021 4/24 追記 2021 5/14 countコマンド修正 2021 5/16 -pについて追記(赤字部分) GenomeDiffファイルは、サンプルで検出されたすべての変異を記述するbreseqによって出力されるテキストファイルである。 (これらは、コードの「d…

MAF(Multiple Alignment Format)を様々な条件でフィルタリングする MafFilter

進化的比較ゲノム解析および集団ゲノム解析は、2つ以上のゲノム間の相同なヌクレオチド位置を記録するゲノム配列のアラインメントに基づいている。遺伝子アラインメントは3種類の文字のedit(ミスマッチ、挿入および欠失)のみを用いて記載されているが、ゲ…

(ヒトとマウス向け)VCFのアノテーションを行う Jannovar

全ゲノムシーケンス(WES)は、ヒトゲノムのタンパク質コーディングエクソンのターゲットシーケンスであり、新しいメンデル遺伝病遺伝子を特定するための強力で費用対効果の高い方法であり、診断環境でもますます使用されている[Bamshad et al 、2011; Robin…

共通/非共通の要素をベン図で視覚化し、抽出する jvenn

ハイスループットの生物学は、ますます複雑な実験計画で、データの数を増やしている。これらのデータの分析では、多くの場合、遺伝子名やOTU(Operational Taxonomic Unit)を含む生物学的識別子のリストが生成される。これらは異なる方法(微分分析)または…

メタゲノムアセンブリをbinningする CONCOCT

2021 4/28 コマンド追記 ショットガンシーケンシングは、複雑な微生物群集からのゲノムの再構築を可能にするが、全ゲノムを再構築することはできないので、ゲノムの断片をビンに入れることが必要である。 この論文では、CONCOCTを提示する。これは、コンティ…

リファレンスフリーで低メモリかつ高速にSNVとsmall indelを予測する DiscoSnp ++

次世代シーケンス(NGS)データは生命メカニズムへの前例のないアクセスを提供する。特に、これらのデータは染色体、個体または種間の遺伝的差異を評価することを可能にする。そのような多型は、農学、環境または医学における多数の用途を有する生物学の多く…

メタゲノムのraw fastqから高速なtaxonomy assignmentを行う FOCUS

微生物は他のどの細胞生物よりも豊富であり(Whitman、Coleman&Wiebe、1998年)、どの生物が存在し、それらが何をしているのかを理解することが重要である(Handelsman、2004)。多くの環境では、微生物群集の大多数は培養できず、メタゲノムは未培養のゲノ…

blast結果を可視化するwebツール Kablammo

The Basic Local Alignment Search Tool (BLAST) は、クエリとデータベース配列との間で共有される類似のサブ配列を迅速に見出す(Altschul et al., 1997)。その用途には、共有された配列の類似性から相同性を推定すること、特徴付けられていない配列に関連す…

植物ゲノムアノテーションwebサービス MEGANTE

ハイスループットシーケンシング技術の出現により、植物ゲノムシーケンシングは加速し、そしてデータは作物改良のために利用されてきている(Bevan and Uauy 2013)。大量の植物ゲノム配列の蓄積は、比較ゲノミクスデータベースの構築(Mihara et al、2010、…

ショート/ロングシーケンシングデータやcontigからVirulence factorを検出するwebツール VirulenceFinder

病原性細菌は依然として公衆衛生に大きな脅威を与えており、病原性細菌蔓延を制限し、感染症の発生を防ぐためには、正確で迅速な診断および分離株の分類が非常に重要である。現在の日常業務では、単離および同定は大部分が臨床微生物学的検査室で行われ、検…

耐性カセットや病原性遺伝子のタイピングを行う SRST2

病原性細菌の迅速な分子タイピングは、公衆衛生疫学、サーベイ ランスおよび感染制御にとって重要である[論文より ref.1,2]。そのような活動の2つの重要な目標は、(1)病原性遺伝子、抗菌性耐性遺伝子または血清型決定因子を含む臨床的に関連する表現型に関…

関連するメタゲノムから集団ゲノムを復元するための自動化ツール groopM

微生物群集の機能と進化を理解する能力は、特定の生態系のほとんどの構成種を培養できないことで妨げられてきた(論文より Hugenholtz、Goebel&Pace、1998)。ショットガンシーケンシングの環境DNAへの応用であるMetagenomicsは、この培養のボトルネックを…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

de brujin graphからinversionのブレイクポイントを検出する TakeABreak

構造変化はゲノム変化の重要なソースであり、表現型の変化、遺伝性疾患、進化に関与する可能性がある。集団における構造的変異の程度は、主にNGSのおかげで、最近になって認められているに過ぎない。事実、いくつかのヒト個体のゲノムをシーケンシングするこ…