2014年5月14日水曜日

エクソームシーケンシングの生データダウンロード

VCF
BAM
FASTQ1
FASTQ2
FASTQ3
FASTQ4

全て、検査会社から受け取ったままの生データです。私自身のエクソーム解析結果なので、私の判断でここに掲載します。FASTQファイルが4つある意味は、ペアリードとして2つのファイルがセットになっていて、それらが2回のバッチに別れてシーケンシングしたとのことです。シーケンサーはIllumina HiSeq2500、エクソーム抽出キットはNextera Rapid Capture Expanded Exome Kit (FC-140-1006)を用いたとのことです。注文時にカバレージは80xと表示されていたのは確かなのですが、BAMファイルを見るとカバレージの数値が高い部分が偏っていて、実質的にはそれほど良くないように思えてなりません。DNADTCという米国の検査会社によるもので、当時のこの会社のエクソームシーケンシングのウェブページをPDFとして残しておいたものから引用すると、次のように記載がありました。
DNA DTC’s exome sequencing service utilizes the Illumina HiSeq platform and has an average coverage of 80X, allowing for a high degree of accuracy in identifying variants in an individual’s DNA.
この会社は、現在ではGene By Geneという会社にグループ再編されたため、上記の文言は同社のウェブページとして確認することはできません。

BAMファイルは、IGVで表示することができますが、UCSC Genome Browserではエラーとなって表示することができません。
http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr4%3A55149699-59929698&hgsid=373341439_3L0PfEg5wA0sDamZoUIyPA6gbHUm
検査会社に問い合わせを続けているのですが、検査会社としては、UCSC Genome BrowserのCIGARの実装が古いのだと主張しています。

それと関係しているか分からないのですが、USEGALAXYのUnified Genotyperを使って、変異をコールしようとしても、VCFに何もコールされないので原因を探しています。
https://usegalaxy.org/u/ksfk/h/bam-by-dnadtc-to-vcf
Dataset 6で"Actual calls made 0"と返されて、Dataset 4のVCFファイルにコールが含まれていません。phredの条件を下げてDataset 19から21にかけて再度Unified Genotyperを実行していますが、同様の結果です。

原因がお分かりになる方がおられましたら、ぜひとも教えていただけるとありがたいです。

これらの問題のために、あまりうまくはいっていませんが、自分でFASTQからBAMを作り直しているので、それについても別記する予定です。

--------------
別記しました。

ヒト、魚、植物で共通の病気

厳密に言えば、遺伝的に共通の部分については、ヒト、魚、植物の間で同じ病気を患います。遺伝的系統として近ければ近いほど、同じように患う病気が増えていきます。例えば、植物でもミトコンドリア病という病気は存在するようです。
ヒトのミトコンドリア病とはかなり異なるのかもしれませんが、ミトコンドリアという仕組みを持っていて、それが遺伝的に引き継がれる限りは、どんな真核生物でもミトコンドリア病という種類の病気を患うと考えられます。これが魚になれば、脊椎動物としてヒトと同じ脊椎の病気が存在するでしょうし、さらにイヌになれば、アルツハイマー型認知症を患っているイヌもいると言われるほど、ヒトと共通の病気がとてもたくさん存在します。種を超えて俯瞰しても、遺伝的系統として近いほど、同じ病気を患う傾向があるのだと思います。

2014年5月9日金曜日

転載許諾

この部分は転載にあたるのか単なる引用なのか迷いましたが、「認められぬ病」からの本著でもっとも大きな転載・引用箇所なのは間違いないので、中央公論新社を経て柳澤桂子先生に転載許諾の申請を致しました。2014/05/03日付で転載許諾を頂戴いたしました。