2014年8月10日日曜日

usegalaxyを使ってFASTQからBAM,VCFへ

DNADTCから与えられたBAM中でイントロンの一部が読めていても、VCF中で意図的にカットされていることが分かったので、usegalaxyを使って自分でFASTQからBAM、VCFを生成しました。
https://usegalaxy.org/u/ksfk/h/illumina-exome

手順としては、以下のようになります。

FASTQC
FASTQ Groomer
Concaternate datasets ペアリードごとの2つのバッチのFASTQファイルを結合
hg19のリファレンスシーケンスのファイルを自分で用意してusegalaxyにロード
Map with BWA for Illumina
SAM-to-BAM
rmdup 重複したリードの削除
Add or Replace Groups BAMファイル中にグループの指定がないと次の処理を通らないため。
Realigner Target Creator
Indel Realigner
Add or Replace Groups グループとしてIlluminaが指定されてないと次の処理を通らないため。
Count Covariates
Analyze Covariates
Table Recalibration
Unified Genotyper VCF生成
Variant Filtration
ANNOVAR Annotate VCF

かろうじてそれらしいBAMとVCFが生成できたものの、全体的に行き当たりばったりで正確さに自信がありません。特に2回のバッチに別れたFASTQを1つにまとめるのはConcaternate datasetsとして早い段階実行するしか方法がないようで、しかしそうすると、バッチの間でのシーケンサのパラメータ(phred?)の違いを考慮に入れずに後の処理を行っていることになります。

下手をするとIndel Realignerなどで架空の変異を生じてしまっていないかとても心配です。このような理由で、現在のところ、DNADTCから提供された方のBAMとVCFを信頼して作業をしています。

0 件のコメント:

コメントを投稿