2015年3月5日木曜日

dbSNPの正確性 - エントリーの半数が未検証

UNdianosedにまとまりをもたせるために、節の分離作業を行っています。この節を、こちらに修正しながら転記します。


 dbSNPに登録されている内容の正確性について、Wikipedia英語版などで問題が提起されている。極端な場合には、健常者をシーケンシングした結果、dbSNPには病的変異として登録されているのに、その疾患の浸透率は十分に高いので優性遺伝か劣性遺伝で発症するはずが、全く健常者のままだと言うのだ。それに関連する学術文献を示したい。


The creation of single-nucleotide polymorphism (SNP) databases (such as NCBI dbSNP) has facilitated scientific research in many fields.
一塩基多型(SNP)データベース(NCBI dbSNPなど)の生成は、多くの学術分野で研究に貢献してきた。
SNP discovery and detection has improved to the extent that there are over 17 million human reference (rs) SNPs reported to date (Build 129 of dbSNP).
SNPの発見および検出は、今日(dbSNPビルド番号としては129)までに報告されたもので1700万個を超えるヒトリファレンスSNPs(rs、RefSNPアクセッション番号)が得られるまでに向上した。
SNP databases are unfortunately not always complete and/or accurate.
しかしあいにくSNPデータベースは、常に完全、正確、またはその両方といった状態ではない。
In fact, half of the reported SNPs are still only candidate SNPs and are not validated in a population.
実際、報告されたSNPsの半分が、未だに単に候補のSNPsであり、人口に対して検証されたものではないのだ。
We describe the identification of SNDs (Single Nucleotide Differences) in humans, that may contaminate the dbSNP database.
我々はヒトにおけるSNDs(Single Nucleotide Differences、一塩基差異) について述べる。それらSNDsとは、dbSNPデータベースを汚染する可能性があるものである。
These SNDs, reported as real SNPs in the database, do not exist as such, but are merely artifacts due to the presence of a paralogue (highly similar duplicated) sequence in the genome.
これらSNDsは、データベース中で真のSNPsとして報告されているが、そんなものは存在せず、ゲノム中にパラログ(高度に類似して複製されたもの)配列が存在することによる単なるアーティファクトである。
Using sequencing we showed how SNDs could originate in two paralogous genes and evaluated samples from a population of 100 individuals for the presence/absence of SNPs.
シーケンシングを用いることで、我々はSNDsがどのように二つのパラロガス遺伝子から発生するかを示し、100人の人口からの検体について、SNPsが存在するか否か評価した。
Moreover using bioinformatics, we predicted as many as 8.32% of the biallelic, coding SNPs in the dbSNP database to be SNDs.
更に、バイオインフォマティクスを用いて、我々は、dbSNPデータベース中で8.32%にもおよぶ二対立遺伝子(biallelic)性のコーディングSNPsがSNDsであることを予測した。
Our identification of SNDs in the database will allow researchers to not only select truly informative SNPs for association studies, but also aid in determining accurate SNP genotypes and haplotypes.
我々がデータベース中に同定したSNDsは、研究者らがGWASなどで真に情報的価値のあるSNPsを選択できるようにするだけでなく、正確なSNPジェノタイプおよびハプロタイプを決定するのにも役立つものである。

半分も検証されていないとは初めて知った。annovarといったツールを使う度に、処理能力の低いパソコンだと膨大すぎて思う情報に辿り着くのにえらく苦労したのだが、やっぱりそういう検証済みでないものも混じっているから、あれだけデータが大きいのか。パソコンの処理能力のせいにしながら惨めに苦労しただけに、少しショックだ。

 次の図は、dbSNPにSNPがどんどん登録されて巨大化していった様子を示すために、パブリックドメインで提供されているセミナー資料から引き出したものである(Courtesy:NHGRI)。1998年から2005年までしか描かれていないが、新しいものはパブリックドメインでは見つけられなかった。やはり検証済みのSNP("Validated")はトータルSNPsの約半分ということのようだ。レジェンドの真ん中には"2-hit SNPs"とオレンジのラインで表示されている。dbSNPにおける検証の概要について引用翻訳した後に、調べてみる。

("What exactly does it mean when a SNP is validated? Could you explain what validation is?", NCBI, 2014年10月18日閲覧、パブリックドメインとして提供されている より)

What exactly does it mean when a SNP is validated? Could you explain what validation is?
SNPをいつ検証したかって、いったい何がききたいの? 検証って何か教えてよ?
In order for a RefSNP(rs) to be validated, at least one of its clustered submitted SNPs (ss) must either have been ascertained using a non-computational method or have frequency information associated with it.
RefSNP(rs)を検証された状態に保つために、クラスター化されて提出されたSNPs(submitted SNPs:ss)のうち少なくとも一つが、非計算機的手法を用いて確認されるか、または、人口頻度の情報が関連付けられなければならない。
When an ss is withdrawn from a validated rs cluster, and the withdrawn ss was the only ss in that cluster to have frequency information or to be ascertained using a non-computational method, then the rs cluster changes to"non-validated" status.
検証されたrsクラスターからssが撤回され、撤回されたssがそのクラスター中で、人口頻度の情報を有する、または、非計算機的手法を用いて確認された、唯一のものである場合、そのrsクラスターは"non-validated"(非検証済み)のステータスへと変化する。
For example, the submitter "SNP500CANCER" found all their SNPs using non-computational methods, and routinely withdrew SNPs during their quality control cycles.
例として、提出者"SNP500CANCER"が、全部のSNPsについて非計算機的手法を用いて見出し、品質管理サイクルの中でルーチン的にSNPsを撤回する場合を考えてみる。
So when "SNP500CANCER" submitted a ss into dbSNP and it clustered into a non-validated rs, that rs became validated.
つまり"SNP500CANCER"がssをdbSNPに提出し、それらが非検証済みのrsへとクラスター化される際、そのrsは検証済みと成る。
When"SNP500CANCER" later withdrew the same ss, the rs cluster it was associatedwith lost its validation status.
"SNP500CANCER"が後で同じssを撤回する際、それと関連付けられたrsクラスターは検証ステータスを失うのである。(訳注:ちょっと英語の文法が奇妙な感じで正確には何が言いたいのかわかりません。タイポでしょうか?)
You can also find information on variation validation by going to the dbSNP Handbook, and search for the text: "Validation" (scroll to the bottom of the page).
dbSNPハンドブックを読みに行って"Validation"の文字列を検索すれば、様々な検証についての情報を見つけることができる(ページ下部までスクロール)。
You will find the following statement:
そこで次のような文言を見つけることができるだろう:
“dbSNP accepts individual assay records (ss numbers) without validation evidence. When possible, however, we try to distinguish high-quality validated data from unconfirmed (usually computational) variation reports.
「dbSNPは検証したという根拠がなくとも、個人のアッセイレコード(ss番号)を受け入れる。しかしながら可能であれば、我々は高品質な検証済みのデータを、未確認(通常は計算機的手法によるもの)のバリエーションレポートから区別しようとする。(訳注:バリエーションとは「類似の」「同時に提出された」といった意味だと思います)
Assays validated directly by the submitter through the VALIDATION section show the type of evidence used to confirm the variation.
提出者が直接的に検証を行ったアッセイは、VALIDATIONセクションを通じて、そのバリエーションを確認するための根拠のタイプを示す。
Additionally, dbSNP will flag an assay as validated (Table 4) when we observe frequency or genotype data for the record.top link.” (04/21/08)
追加的に、我々がそのレコードに対する人口頻度、または、遺伝型のデータが観測された際、dbSNPが検証済み(表4)としてアッセイにフラグを立てる。」(2008年4月21日)

分からない部分もあるが、ともかく検証されているものとされてないものは明確に区別されるということのようだ。"2 hit SNPs"について調べる。

("Double Hit SNP Computation" NCBI より) 

What criteria does dbSNP use to determine double-hit SNPs independently of Dr. Jim Mullikin's algorithm?
Dr. Jim Mullikinのアルゴリズムとは別に、dbSNPがダブルヒットSNPsを決定するのにどんな基準を用いているのでしょうか?

I have not made the double-hit, two-allele computation for some time now.
私としては、ダブルヒット、2アレル計算を現在のところ、作成済みではない。
Currently, we rely exclusively on Dr. Mullikin's data AFAIK.
現在、我々はDr. Mullikinのdata AFAIKに頼りきっている。
As for my double-hit computation, I made the initial calculation of double-hit SNPs based on submitter-supplied clone accessions.
私のダブルヒット計算に関しては、提出者が提供するクローンのアクセッションに基いて、ダブルヒットSNPsの初期計算を作成した。(訳注:アクセッションがよくわかりません)
If we can establish that two different submitters working with different clone libraries had independently identified each allele, we confirmed the SNP as a double hit.
もしも我々が、二人の異なった提出者が、異なったクローンライブラリで作業をし、独立に各アレルを同定したということを確認したならば、我々はそのSNPがダブルヒットであることを確信する。
I believe this mined something on the order of 10 K of double-hit SNPs.
私は、1万のオーダーのダブルヒットSNPsをマイニングしたと信じている。(訳注:somethingがよくわかりません)

We also knew that we had a bolus of TSC SNPs mined from traces known to be from sources other than the clone libraries used in the human genome.
我々はまた、ヒトゲノム中で用いられるクローンライブラリ以外のソースから来たと思われるトレースから、TSCの大量のSNPsをマイニングしたということを知った。
I'm a bit fuzzy on the details now;
詳細については、私は現在のところ曖昧にしか理解していない。
I do, however, recall that the individuals supplying the TSC traces were pooled together, but that a statistical argument, based on the number of individuals in the pool, allowed us to consider each trace as an independent sample with high confidence.
しかしながら私は、TSCトレースを供給した個人達が、いっしょにプールされていたことを覚えている。しかし、プール中での個人の数に基いて、統計的な議論としてはめいめいのトレースを高い確信をもって独立した検体として考慮することが可能であった。(訳注:individualのもっと適切な訳が必要です)
Additionally, the allele appearing on the genome itself constituted one hit of that allele.
加えて、ゲノムそのものの上にあるアレルが、そのアレルの1ヒットを構成するのである。
If we found at least one other trace with the genomic variant and two traces of the variant not on the genome in the TSC dataset, the SNP was classified as double-hit, two-allele.
もしも我々がそのゲノムバリアントを有する少なくとも1つの他のトレースを見つけ、そのバリアントの2つのトレースがTSCデータセット中のゲノム上にないと知ったなら、そのSNPはダブルヒットで、2アレルとして分類される。(訳注:念のための言語に近いバリアントとしましたが、変異と理解していいはずです)
I believe we classified about 100 K double-hit SNPs by this method.
私は、我々がおよそ10万個のダブルヒットSNPsをこの手法により分類したと信じる。


基本的には二重にかぶって登録されてしまったものが、先述のグラフでレジェンドの真ん中に描かれていて、実質的にはその分は差し引いて考えるとか、dbSNPを参照する立場でも注意しておかないといけないようだ。


 dbSNPの公的なガイドとして最も簡単なのは、おそらく2014年10月現在のところこの4ページだけのFact Sheetである。なぜFTPで提供されているかはよく分からないものの、とにかく入門者向けの啓蒙用として配られているようだ。日本語でもっともわかりやすいと思ったのは、こちらのプレゼン資料§であった。著作権上パブリックドメインの公式Fact Sheetから抜き出す。(Courtesy: National Library of Medicine)

The NCBI Short Genetic Variations database, commonly known as dbSNP, catalogs short variations in nucleotide sequences from a wide range of organisms.
dbSNPとしてよく知られている、NCBIのショート遺伝バリエーションデータベースは、幅広い生体から、ヌクレオチド配列中の短いバリエーションをカタログします。(訳注:variationは、多様性とも変化としても違和感があったため、バリエーションとしました。variantを訳した結果混同しそうな文脈ではそのままバリアントとしているのと同じ流儀です。訳文の商品価値よりも、正しく伝わることを優先したいので、カタカナ化という安直な方法をお見逃しください)
These variations include single nucleotide variations, short nucleotide insertions and deletions, short tandem repeats and microsatellites.
これらのバリエーションとしては、一塩基バリエーション、短いヌクレオチド挿入と欠失、短いタンデムリピートおよびマイクロサテライトが含まれます。
Short Genetic Variations may be common, thus representing true polymorphisms, or they may be rare.
ショート遺伝バリエーションは、共通のもの、つまり真の多型も場合もあるし、希少な場合もあります。
Some of these rare human entries have additional information associated with them, including disease associations, genotype information and allele origin, as some variations are somatic rather than germline events.
これら希少なヒトのエントリーの何割かは、付随的な情報と関連付けられ、疾患への関与、遺伝型情報およびアレルオリジンを含んでいます。生殖細胞由来というよりも、体細胞由来のバリエーションも含まれます。
(略)
Searching for and displaying SNP records
SNPレコードを検索および表示する
Searches can be performed from the homepage by typing a query term in the search box and clicking the Search button (A).
ホームページから、検索文字列を検索ボックスにタイプしてSearchボタン(A)をクリックすることにより、検索を実行することができます。
The Limits (B) page has an extensive list of options that restrict search results to desired categories, while the Advanced (C) page provides a query construction function for use in creating complex queries to produce more precise results.
Limits(B)ページには、検索結果を希望するカテゴリへと制限するための、オプションの拡張リストがあり、Advanced(C)ページは、より精密な結果を得るために複雑な検索条件を指定するのに用いる、詳細設定機能を提供します。
The search below, “hfe[gene] AND human[orgn] AND utr_5[fxn]”, retrieves variations mapped to the 5’-UTR of human HFE gene.
以下の検索結果は“hfe[gene] AND human[orgn] AND utr_5[fxn]”と入力したものであり、ヒトHFE遺伝子の5'-UTRへとマップされたバリエーションを引き出します。
Options in the Display settings popup can be used to show SNPs in other formats, such as FlatFile (D), or sort retrieved variations in a different order, such as chromosome
base position (E).
[Display Settings:]をクリックするとポップアップ形式のオプションが表示され、FlatFile(D)といった他の形式でSNPsを表示したり、chromosome base position(E)といった異なった順番で検索結果である複数のバリエーションをソートすることができます。
The retrieved variations can be saved to a local file using the Send to (F) option.
検索して得られたバリエーションは、Send to(F)オプションを用いてローカルなファイルに保存できます。
Links to separate displays to highlight specific aspects, such as gene-centric listing (GeneView, G) and graphical presentation under the context of genome or mRNA sequences through the HGVS names (H), are also provided.
ハイライトにより強調された各表示方法へのリンクをクリックすると、gene-centric listing(GeneView, G)、および、HGVS名を通じてゲノムやmRNA配列のコンテキストに基づくグラフィック表示(H)を行うこともできます。
(略)
The reference SNP cluster report
リファレンスSNPクラスターレポート
Details of a variation record are given in the Reference SNP Cluster Report (shown in sections below and on the next page).
バリエーションレコードの詳細は、Reference SNP Cluster Reportで表示されます(以下の節および次ページを参照)。
This display is linked from the rsID (rs1800730) and provides a summary of the allele (A) and mapping information in Human Genome Variation Society (HGVS) nomenclature (B).
この表示は、rsID (rs1800730)からリンクされており、そのアレルの概要(A)およびHuman Genome Variation Society(HGVS)命名法を用いたマッピング情報(B)を提供します。
The VarView icon (C) links to a new genecentric display (see pg.4).
VarViewアイコン(C)は、genecentric表示へとリンクしています(4ページを参照)。
The detailed genome mapping information is summarized in the table below (D).
詳細なゲノムマッピング情報は、その下の表(D)にまとめられています。
The chromosomal coordinates (E) links to the same gene-centric display as VarView icon.
染色体座標(E)は、VarViewアイコンと同様にgene-centric表示へとリンクしています。(訳注:106ではなく26090957の指し間違いと思われます。)
The magnifying glass (F) links to the 1000 Genomes Browser providing genotyping details, if the rsID is also reported by that project.
虫眼鏡(F)は、遺伝型詳細を表示する1000ゲノムブラウザーへとリンクしており、そのrsIDが1000ゲノムプロジェクトにより報告されたことを意味します。
Clicking the Go button (G) in the GeneView section (right), activates the SNP:GeneView (p.4) display, detailing the variations mapped to the gene.
GeneViewセクションにあるGoボタン(G)をクリックすると、"SNP:GeneView"表示(4ページ目)が開かれ、その遺伝子へとマップされたバリエーションの詳細が表示されます。
The mapping coordinates and protein coding changes are summarized in the tables (H) below, which are followed by a graphical display of the variation on the genome assembly (I).
マッピング座標およびタンパクコーディングの変化は、表(H)にまとめられ、ゲノムアセンブリ上のそのバリエーションのグラフィック表示(I)が続いています。
Variations with different characteristics are listed in different tracks (J) and hyperlinked to provide additional details in popup.
異なった特徴をもつバリエーションは、異なったトラック(J)にリストされ、付随的な詳細をポップアップ表示より提供するようハイパーリンクが張られています。
Alleles and flanking sequences from submitter SNPs (K) included in the reference SNP cluster are summarized in a table below the graphical display.
リファレンスSNPクラスター中に含まれる提出者(submitter) SNPs(K)からのアレルおよび隣接する配列は、グラフィック表示の下の表にまとめられています。
The ssIDs (L) link to submitter records providing additional details.
ssID()は付随的な詳細を提供する提出者(submitter)レコードへとリンクしています。

込み入ってきたため、一度翻訳を区切りたい。パブリックドメインなので公式の文書からコピーしてスクリーン・ショットを入れられるのはいいが、かなり見通しの悪い表示となってしまった。この形で続けることがいいかどうか、別の機会を探して検討したい。

0 件のコメント:

コメントを投稿