2014年5月14日水曜日

エクソームシーケンシングの生データダウンロード

2022/02/19追記 すでに8年を経たので、シーケンシングの精度の点からデータとしてほぼ役に立たなくなったと判断し、膨大なデータ容量の関係もあって、データそのものは掲載から削除させていただくことにいたしました。記事としては残させていただきます。

VCF
BAM
FASTQ1
FASTQ2
FASTQ3
FASTQ4

全て、検査会社から受け取ったままの生データです。私自身のエクソーム解析結果なので、私の判断でここに掲載します。FASTQファイルが4つある意味は、ペアリードとして2つのファイルがセットになっていて、それらが2回のバッチに別れてシーケンシングしたとのことです。シーケンサーはIllumina HiSeq2500、エクソーム抽出キットはNextera Rapid Capture Expanded Exome Kit (FC-140-1006)を用いたとのことです。注文時にカバレージは80xと表示されていたのは確かなのですが、BAMファイルを見るとカバレージの数値が高い部分が偏っていて、実質的にはそれほど良くないように思えてなりません。DNADTCという米国の検査会社によるもので、当時のこの会社のエクソームシーケンシングのウェブページをPDFとして残しておいたものから引用すると、次のように記載がありました。
DNA DTC’s exome sequencing service utilizes the Illumina HiSeq platform and has an average coverage of 80X, allowing for a high degree of accuracy in identifying variants in an individual’s DNA.
この会社は、現在ではGene By Geneという会社にグループ再編されたため、上記の文言は同社のウェブページとして確認することはできません。

BAMファイルは、IGVで表示することができますが、UCSC Genome Browserではエラーとなって表示することができません。
http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr4%3A55149699-59929698&hgsid=373341439_3L0PfEg5wA0sDamZoUIyPA6gbHUm
検査会社に問い合わせを続けているのですが、検査会社としては、UCSC Genome BrowserのCIGARの実装が古いのだと主張しています。

それと関係しているか分からないのですが、USEGALAXYのUnified Genotyperを使って、変異をコールしようとしても、VCFに何もコールされないので原因を探しています。
https://usegalaxy.org/u/ksfk/h/bam-by-dnadtc-to-vcf
Dataset 6で"Actual calls made 0"と返されて、Dataset 4のVCFファイルにコールが含まれていません。phredの条件を下げてDataset 19から21にかけて再度Unified Genotyperを実行していますが、同様の結果です。

原因がお分かりになる方がおられましたら、ぜひとも教えていただけるとありがたいです。

これらの問題のために、あまりうまくはいっていませんが、自分でFASTQからBAMを作り直しているので、それについても別記する予定です。

--------------
別記しました。

0 件のコメント:

コメントを投稿