macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2020-01-01から1ヶ月間の記事一覧

ONT cDNA ロングリードのエラー修正を行うisONcorrect

2021 1/5 論文引用 ロングリードを使用したトランスクリプトームシーケンスは、細胞の転写ランドスケープを理解するための強力な方法であることが証明されている(Wyman et al、n.d .; Bayega et al、2018; Byrne、Cole、et al、2019)。ロングリードテクノ…

UniprotのID変換webサービスを使い、UniProt accessionsからタンパク質のアノテーションを得る (ID mapping)

2020 2/4 追記 UniProtのRetrieve/ID mappingサービスを使用すると、UniProt accessions IDからGenbankの配列、PDBのID、Entrez Gene ID、GI nnumber、タンパク質のアノテーションなどに変換できる。 Converting UniProt identifiers to external identifers…

高速なヒトゲノムのアセンブラ Peregrine

初期のヒトゲノムプロジェクトと安価なDNAシークエンシング技術の技術の開発は、学術研究とゲノム情報を使用して人間の健康を改善する産業の両方を進歩させた。それは、遺伝子型と表現型の関連と多くの重要かつ臨床関連のアプリケーションのための貴重な情報…

WikiPathwaysのCytoscapeプラグイン WikiPathways App for Cytoscape

このホワイトペーパーでは、Cytoscape用のオープンソースWikiPathwaysアプリ(http://apps.cytoscape.org/apps/wikipathways)を紹介する。WikiPathwaysアプリは、データの視覚化とネットワーク分析のためにバイオロジカルパスウェイをインポートするために…

インタラクティブなdot plotビューア dot

ゲノムとゲノムのアライメントを視覚化する方法の1つに、両方のゲノムのアライメントの概要を提供するドットプロットがある。一般的なゲノムブラウザ(IGVやUCSCゲノムブラウザなど)が1つの次元でゲノムデータをプロットするのとは異なり、ドットプロット…

tombo

Tomboは、主にナノポアシーケンスデータから修飾されたヌクレオチドを同定するためのツールスイートである。 Tomboは、生のナノポア信号の分析と可視化のためのツールも提供する。Tomboのre-squiggleアルゴリズムは、Tomboフレームワークの基礎である。 Re-s…

MPI Bioinformatics ToolkitのHHpredとMODELLER webサービス

MPI Bioinformatics Toolkit(https://toolkit.tuebingen.mpg.de)は、タンパク質バイオインフォマティクス分析のための無料のワンストップWebサービスである。現在、相互接続された34の外部ツールと内性ツールを提供しており、その機能には、配列類似性検索…

ローカルBLASTをGUI環境で実行できる Sequenceserver

2020 1/25 タイトル修正、統合TVリンク追加 シーケンシングコストの劇的な低下により、個人や研究者グループが以前に研究されていない生物からゲノムまたはトランスクリプトーム配列を生成する多くの機会が生まれている。多くの研究の疑問には、小規模または…

バクテリアゲノムの自動アセンブリ、アノテーション付けツール asqcan

asqcanは、細菌ゲノム配列の自動アセンブリ、品質管理、アノテーション付けのためのワークフローパイプラインである。 最新のバクテリアシーケンシングプロジェクトには、かなりの数の単離株が含まれる場合があり、必要なQCとアノテーションの作成、実行に時…

ターゲット配列とその近傍領域をアセンブリする mapsembler2

Mapsembler2は、ターゲットを絞ったアセンブリソフトウェアである。Mapsembler2は、入力として任意のNGSのrawリードセットとスターター配列を取り、ユーザーの選択に応じて、そのスターター配列近傍を線形シーケンスまたはグラフとして出力する。 以下のよう…

トランスポゾンを分類する TEsorter

Transposable elements(TE)は真核生物ゲノムの重要な部分を構成するが、それらの分類、特にクレードレベルでの分類は依然として困難である。 この目的のために、TEの保存されたタンパク質ドメインに基づいたTEsorterを提案する。 TEsorterはTE、特にLTRレ…

メタゲノムアセンブリから真核生物由来配列を予測する EukRep

真核微生物は生態系機能の重要な貢献者である。微生物群集の中の真核生物を特定するために遺伝子調査またはDNA「バーコード」が頻繁に使用され、真核生物の多様性の幅が示されている(Pawlowski et al、2012)。ただし、これらのアプローチでは種を検出する…

GuppyのGPU版を使う

2020/07/23 モニターコマンド追記 2021/01/8 helpのバージョン更新 2021/08/22 更新 2022/1/7 v6に更新(helpはv4) 2022/02/16 helpをv6に更新 タイトルの通り、GuppyのGPU版を使うまでの流れをまとめておきます。 ubuntuへのインストール 1、Nvidia GPU d…

URMAP

2020 1/19 コマンドの誤り修正 2020 1/20 twitter追記 2020 6/25 論文追記、リンク切れ更新 次世代シーケンシングにより、ヒト機能ゲノミクス(Morozova and Marra、2008)から微生物メタゲノミクス(Gilbert and Dupont、2011)までの分野で劇的な進歩が可…

Cytobandファイルのダウンロード

Cytoband file format https://software.broadinstitute.org/software/igv/Cytoband Cytobandファイル(ギムザ染色された染色体のバンドのおおよその位置を表す)はUCSCから入手できる。 group => Mapping and Sequencing track => Chromosome bandを選択。 …

circosVCF

1000米ドル未満で全ゲノムをシーケンスするという目標が現実になり、医療における全ゲノムシーケンス利用が次第に増えている。 Genomics England (http://www.genomicsengland.co.uk/)などの大規模ゲノムプロジェクトは、数千のゲノムから収集された情報を…

変異のlandscape visualizationを提供するwebサービス LandScape

シーケンシング技術の莫大な発展はゲノムデータの蓄積を加速させ、指数関数的蓄積を引き起こし、ヒトゲノム研究を著しく加速させた。一方、生物学的研究では、増加するサンプルからのトランスオミクスデータを分析している。多くの適切に設計された視覚化は…

ゲノムの指定した領域をNでマスクする

bedtoolsを使う。 Document bedtoolsのインストール 本体 Github #bioconda(link)condaw install -c bioconda -y bedtools > bedtools maskfasta $ bedtools maskfasta Tool: bedtools maskfasta (aka maskFastaFromBed) Version: v2.29.0 Summary: Mask a f…

ベンチマークその2(2019)

2020 9/12,9/13 誤字修正 1の続きになります。 ピークメモリ値 以下のグラフは前回の投稿のxeon E5 v4 dualのランログから取った、各ツールのピークメモリ使用量(GB)になる (n=5)。flyeのピークメモリが突出していた。特にエラー修正していないraw ONT リ…

ベンチマーク(2019)

2020 2/10 追記 2020 3/15 文章修正 2020 9/13 誤字修正 最近はZEN世代のCPUが高いパフォーマンスを出している。しかし、公開されている情報の多くはCPUの基礎的な特性を示すベンチマークだったり、ゲーミングや映像編集など需要が高い分野に限定されており…

オルガネラゲノムのアノテーションを行うwebサービス AGORA

生物学のビッグデータにとって、次世代シーケンシング(NGS)テクノロジーは注目すべき時代であり、生物学のハイスループットゲノムデータの蓄積につながっている。生物学者がさまざまな生物から高スループットのゲノムデータを取得できたとしても、ゲノムア…

ロングリードやショートリードのRNA seq情報をもとに転写領域をアセンブリして出力する StringTie2

2020 7/1 インストール方法追記, コマンド追記 2020 7/2 タイトル修正 2020 7/27 merge追記 2022/06/09 論文引用 2022/12/10, 12/28追記 2023/01/21 レポジトリURL修正 RNAシーケンス(RNAシーケンス)データセット内の転写産物の量を測定することは、細胞の…

真核生物のゲノムプロジェクトにおいて共同研究者と共にアノテーションを効率的に進めるためのwebサービス GenSAS

2020 1/9 タイトル修正 2020 7/19 追記 2020 7/23 追記 Genome Sequence Annotation Server(GenSAS、https://www.gensas.org)は、構造的および機能的アノテーション、および手動キュレーションのための安全なWebベースのゲノムアノテーションプラットフォ…

エラーの多いロングリードをタンデムリピートにマッピングする tandemmapper

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトから、タンデムリピートが真核生物ゲノムに豊富にあることが明らかになった…

UGENE その2

今回は、1回目で説明できなかった機能について説明する。 一旦入力した配列は直接編集できないようになっている。編集するには左端のeditボタンをクリックする。 選択した配列を消したり、追加できるようになっている。 編集が終わったらもう一度editボタン…

DNA解析ソフト4 次世代シークエンシングデータも扱える Unipro UGENE その1

2020 1/6 タイトル修正 2020 3/2 わかりにくい説明を修正 明けましておめでとうございます。今年もよろしくお願い致します。 2020年初回はDNA解析ソフトUGENEを紹介します。発表はかなり前ですが、今でもアップデートが続いており、塩基配列の編集のみならず…