macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

SRA Toolkitのfasta-dumpを高速化した fasterq-dump

タイトルの通りのコマンド。 使い方だけ簡単に紹介します。 fasterq-dumpに関するツイート worked all day on a bash scrip to fetch & convert all European and African @1000genomes SRA files. <for i in *.sra ; do fasterq-dump $i -O ./ -t $home/Desktop/fasterqdumptempfiles -e 12 -S -p ; done > mac is smoking now. — Phillip Buckhaults (@P_J_Bu…</for>

倍数性レベルを可視化して推測する smudgeplot

性別:それは何の利点があるか?直接的な選択肢が利用可能であるとき、ほとんどの真核生物が繁殖に複雑な迂回路をとる理由は、進化生物学の中心的かつ主として未解決の問題であり続けている。無性生殖を唯一の複製形態として使用する種は系統発生の先端で起…

Nanoporeのロングリードのシミュレータ DeepSimulator

2019 4/17 誤字修正 次世代シークエンシング(NGS)技術により、研究者はDNAおよびRNAをハイスループットでシーケンシングすることが可能になり、これはゲノミクス、トランスクリプトミクスおよびエピゲノミクスにおける多数の突破口を開いた(MacLean et al…

リファレンスなしでnanopore Direct RNA seqのリードの向きを予測する ReorientExpress

ロングリードシークエンシング技術は、あらゆる種からのトランスクリプトームの体系的な調査を可能にする。ただし、機能評価には5 'から3'への方向を正しく決定する必要がある。 complementary DNA(cDNA)ライブラリーのシーケンシングは、一般に多数のリー…

rawロングリードから直接MLSTタイピングを行う Krocus

2019 4/16 コマンド修正 急速にコストが下がる中、Pacific Biosciences(PacBio)やOxford Nanopore Technologies(ONT)のようなロングリードシークエンシング技術がアウトブレイク調査に使われ始めている(Faria et al、2017; Quick et al、2015)。そして…

コンソールでbamのカバレッジを素早く確認できる bamcov

bamcovは、Florian Breitwieserさん(Github)が公開されている、bamのカバレッジを計算してコンソール上で表示するユーティリティ。 インストール macps10.14でテストした。 Github git clone --recurse-submodules https://github.com/fbreitwieser/bamcov…

ラージゲノムにもスケールするドラフトゲノム配列polishingツール ntEdit

この10年間で、次世代シーケンシングテクノロジはスループットを大幅に向上させた。例えば、今日では、20 Gbpの針葉樹ゲノムの50倍のカバレッジシーケンシングもIllumina HiSeq-Xマシンなら8レーンフローセル1回で達成できる。しかし、この膨大なデータはバ…

オルソログとパラログを小メモリ使用量で高速探索する SwiftOrtho

Gene homology type classification は、種を越えてパラログおよびオルソログを同定することからなる。オルソログは共通の先祖遺伝子から分化後に進化した遺伝子であり、パラログはduplicationのために相同な遺伝子である。遺伝子の進化の歴史は遺伝子機能と…

ロングリードのde novo transcriptomeのクラスタリングツール isONclust

Pacific Biosciences(PacBio)Iso-SeqおよびOxford Nanopore Technologies(ONT)を用いた転写産物のロングリードシークエンシングは、植物[ref.6]、真菌[ref.7]、ウイルス[ref.8]、ヒトなどの複雑なアイソフォームランドスケープの研究の中心となることが…

効率的なロングリードとロングリードのアライナー/オーバーラッパー BELLA

最近のシークエンシング技術の進歩により、これまで以上に大規模なゲノムデータにアクセスしやすくなり、ゲノム構造およびその種間および種内での多様性の特性評価が可能になった。シーケンシング後のデータの分析は困難な作業である。ハイスループットシー…

blast結果を可視化するwebツール Kablammo

The Basic Local Alignment Search Tool (BLAST) は、クエリとデータベース配列との間で共有される類似のサブ配列を迅速に見出す(Altschul et al., 1997)。その用途には、共有された配列の類似性から相同性を推定すること、特徴付けられていない配列に関連す…

ノイズを除去しながらsmall /large cohortsのgenotypingを行う smoove

smooveは既存のソフトウェアをラップし、構造変異のコールやジェノタイピングを簡単にするため、いくつかのフィルタリングを追加している。フィルタリングにより、smooveは低レベルのノイズを示すスプリアスなアライメントシグナルを削除し、recallを向上さ…

SVtools

近年の全ゲノムシークエンシング(WGS)の劇的なコスト削減により、数万から数十万のディープシーケンシングされた(> 20倍)個体の包括的な形質関連の解析を行うことを目的とする大規模なヒト遺伝学研究が進行中である。その中で最も重要なものは、NHGRI’s …

DuplicationとdeletionのSVコールから偽陽性の可能性が高いコールをフィルタリングする duphold

構造変異(SV)は、重複、欠失、逆位、挿入、および転座を含む広範な種類の変異である。 SVは、一塩基変異および挿入欠失変異よりも高精度で検出することがより困難であることが知られている。そのため、偽陽性率が高くなる可能性があることからノイズと関心…

proteomeをクラスタリングするデータベース FastaHerder2

タンパク質データベースのますます加速する成長により配列類似性および配列保存によるタンパク質機能研究に対して大きな可能性が提供される。しかしながら、これらのデータベースに蓄積された膨大な数のタンパク質配列はデータを分析しそしてオーガナイズす…

SRAのメタデータを取得したり、IDを変換するツールキット pysradb

いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世代のシークエンシングデー…

病原性細菌の同定とタイピングを行うwebツール PathoBacTyper

生物のゲノムDNAは生物学的にfunctionalな遺伝情報を持っている。生物の全ゲノム配列を解読することは、複雑な生物学研究における基本的なタスクである。以前は、完全なバクテリアゲノム配列を解読するために従来のサンガーシーケンシングが使用されていた。…

種の形質をコレクションするデータベース Traitpedia

種はそれらの遺伝子型および表現型によって一義的に定義することができる。この遺伝子型および表現型は非常に密接に絡み合っており、追加の環境コンポーネントがこの関係の広い理解を複雑にしている。表現型、または形質は、生物の遺伝情報にある程度依存し…

データを可視化するwebツール PlotsOfData

2019 4/11 twitterリンク追記 近年、いくつかのグループが、データの要約ではなく実際のデータをグラフで表示することを提唱している[ref.1-4]。生データは、ヒストグラムやドットプロットなど、さまざまな方法で視覚化できる。データ解釈を補助するにはデー…

ロングリードのリファレンスガイドアセンブリや連鎖地図のマーカーによるガイドアセンブリを行う Kermit

ハイスループットな第二世代シーケンシング技術は、大規模な新規アセンブリを可能にし、そして一般化した。しかしながら、それらのショートリード長は今日でも大きな問題を引き起こしている。1分子リアルタイムシークエンシング(SMRT)およびオックスフォ…

ロングリードのself error correctionやcontigのポリッシングを行う CONSENT

2019 4/16 マッピングの画像追加 第3世代のシークエンシング技術Pacific BiosciencesとOxford Nanoporeは、2011年の創業以来広く使用されてきた。 このロングリードは、コンティグおよびハプロタイプアセンブリ(Patterson et al、2015; Kamath et al、2017…

ロングリードからtamdem repeatを見つける TideHunter

TideHunterは、タンデムリピートを持つロングリードシーケンス(INC-seq、R2C2、NanoAmpli-Seq)用に設計された効率的で高感度のタンデムリピート検出およびコンセンサスコーリングツールである。Pacific Biosciences(PacBio)およびOxford Nanopore Techno…

MECATのpacbioロングリードセルフエラーコレクションを改善する FLAS

第3世代シーケンシーング技術は、そのはるかにリード長において第2世代よりも有利である(Eid et al、2009)。第3世代のシーケンシング技術の代表として、PacBioの一分子リアルタイム(SMRT)技術は現在、平均5〜15K bpのロングリードを100万bp当たり0.4〜…

 高速なオルソログ推論ツール JustOrthologs

オルソログの同定は、多くの研究にとって長い間困難でありながら重要な、最初のステップであった。オルソログは、2つの種の最後の一般的な祖先に存在する同じ祖先遺伝子に由来する遺伝子配列であり、系統樹の再構築または遺伝子機能への洞察を支援することが…

ロングリードを使ってハプロタイプフェージングを行う HapCHAT

ヒトゲノムの二倍体の性質、すなわちハプロタイプと呼ばれるゲノムの2つのコピーを有するため、ゲノムの変異はこれら2コピーのいずれかに現れる。それぞれのゲノム変異が発生する特定のハプロタイプを知ることは、集団ゲノミクス[ref.1-2]、臨床遺伝学およ…

複数のtranscritome情報(gtf)をマージする TACO

ハイスループットRNAシークエンシング(RNA-Seq)により、トランスクリプトームの詳細な理解が可能になった(ref.1–3)。手動および自動システムによる high fidelityな遺伝子モデルアノテーションの試みは、主にロースループットシークエンシング法(ref.4–…

ロングリード情報からハプロタイプフェージングしてdiploidの正確なバリアントコールを行う Longshot

イルミナのショートリードのような第二世代のDNAシークエンシング技術は、ヒトゲノムのリシークエンシングを日常的なものにした(ref.1)。ヒトゲノムにおける最も豊富な変異タイプであるSNVとsmall indel変異の両方は、30〜40×の全ゲノムイルミナシークエン…

アセンブリグラフのGFAを可視化する Assembly Graph Browser (AGB)

現在、ほとんどのゲノムアセンブリプロジェクトは、アセンブリのより包括的な表現を提供するアセンブリグラフよりもむしろコンティグおよびscaffoldsに焦点を合わせている。 大きなアセンブリグラフのインタラクティブな視覚化は未解決の問題であり続けてい…

2005-2017年の各大学のバイオイオンフォマティクス系論文出版数と内容を視覚化した BIOLITMAP

科学および技術のさまざまな分野の科学的貢献に価値を置くことがますます重要になっている。バイオインフォマティクスの急速な発展とその本質的な学際的性質のために、さまざまな応用分野や機関の貢献がどのように発展しているかを視覚化することは特に難し…

Pacbioのpolishingツール Quiver / ArrowとバリアントコーラーPlurality

Quiverは、Pacbioがテンプレートリードを前提として、最大準尤度テンプレートシーケンスを見つける、より洗練されたアルゴリズムである。 PacBioのリードは、テンプレートシーケンスを指定してリードの準尤度をスコア付けする条件付きランダムフィールドアプ…