2015年5月26日火曜日

生命科学データベース統合

 DDBJへのエクソームシーケンシングデータの登録について問い合わせていたところ、バイオサイエンスデータベースセンター(NBDC)という組織が倫理審査を担っていて、その基準に合致していないので、現状のままでは登録できないとの回答を得た。基準に合致した方法で全ゲノムシーケンシングを受ける可能性について引き続き問い合わせているが、いずれにしても組織がどういう構成になっているか、また、本著で既出の様々なデータベースが今後どうやって統合されていくか、まとまった形で調べる必要が生じたので、本節をもうけた。

 本著で既出のデータベースを列挙する。

疾患データベース OMIM、Orphanet、KEGG、GeneReviewsJapan(GRJ)
論文データベース PubMed、PMC、CiNii
mtDNAのSNPデータベース MITOMAP、GiiB-JST mtSNP
SNPデータベース dbSNP、JSNP
配列データベース DDBJ
患者レジストリ Remudy、SWAN USA、配列データベースと未診断患者レジストリの統合システム

疾患データベースとしては、Wikipedia日本語版を最も頻繁に参照していて、次にWikipedia英語版を探し、それらにない希少疾患のときだけ、上記の疾患データベースを参照している。そのため、Wikipedia日本語版を最もあてにしているとも言えるが、Wikipedia日本語版に疾患がなかったり、記述が不足している場合が多い。それにも関わらず、本著を記しながらWikipedia日本語版の説明で足りない部分をWikipedia上に書き加えるということは、本著の主張に引きずられるため、できない。非常に不便な状況である。実際上、どのぐらい公的にWikipediaが書き加えられているか調べてみる。

 Wikipediaは、基本的には、「自分自身の記事をつくらない」ガイドラインと呼ばれるものが設けられていて、自分の利害がかかっていると様々な編集がだめである。どうも規約にさえShare-Alikeが宣言されているため、将来少しでも有償の書籍とする意図があれば迂闊に引用できないので、ここでも具体的な記述を示すことができない。なるべくノートでの編集の提案をして、それで誰も編集してくれなければ、ノートで合意を得てから編集する必要があるとのこと。しかし、疾患の患者が利害関係者かどうかは明記されておらず、おそらく、利害関係者ではないということになるだろう。例えば糖尿病について、糖尿病の患者が本を読んで調べたことを現在も書き込んでいるはずだし、先進国では潜在的に糖尿病を患っていない人口の方が少ないはずだから。そもそも、患者がどうかという個人情報は、他人に証明のしようがないため、患者は自分の疾患について書き込んでもいいはずである。ただし、中立的な観点から、根拠を含んで、独自研究を含まずに書く必要がある。

 また、意外なことに、自分が支払われている状況を明記さえすれば、有償で寄稿することも許されている。大学教授やGLAMが、基本給で雇われているだけで、直接的な手当なしで寄稿する際には、開示する必要さえない。しかし、予算の獲得とかに利害が絡むと、やはり「自分自身の記事をつくらない」ガイドラインに抵触するはずだし、その場合は公的予算の申請と執行は公表されるはずなので、たいていの場合、後で調べれば利害の絡む編集だったと誰かが気がつくと思われる。ただ、そもそも大学教授は予算の申請分野と研究内容は被っているものなので、判定は非常に難しいだろう。これが、大学関係からの書き込みが避けられて、研究者はいるはずなのにWikipedia日本語版の記述が足りない理由なのだろう。

 結論としては、Wikipediaを疾患データベースとして使い続けることはできるが、有償でWikipedian in Residenceを日本のGLAMの機関が雇うということがない限り、疾患数としては増えないと思われる。これまで同様、書き足さずに参照できる範囲で参照するしかない。

 疾患データベースとしてWikipedia日本語版と並んで日本語により提供されているのは、KEGGであり、[最も希少な希少疾患...]で述べた疾患が含まれている*疾患データベースという側面はパスウェイ中心のタンパク質ゲノムデータベースの延長線上で提供しているということのようだ。実際、脂肪酸代謝異常症については詳細が分類されずGA2とGA1が一つのエントリーになっている。OMIMへのリンクが張られているからいいようなものの、この分類はいくらなんでもおかしくないだろうか? と思って「文献」のところを読んで理解した。最初に登場した文献に依存する分類方法なのだろう。確かにGA2とGA1が一つの文献の中で同時に述べられている。この方法だと、Wikiにように多人数に頼らずとも、苦しいだろうが少人数でも維持可能と思われる。おそらく、Wikipediaで肉付けされた疾患解説からリンクが張られて、パスウェイ重視の読者だけがリンクを辿るという形で、Wikipediaと相補的に機能するのに適している。今後のためにパスウェイ重視の疾患一覧へのリンクを示しておく。どこの代謝障害かという科学的な根拠で分類されているため、疾患が発見された歴史的経緯や罹患率による記述が排除されて、非常に分かりやすい。2007年4月より文部科学省統合データベースプロジェクトの支援を受けたそうなので、文科省管轄である。

 これに対して、厚労省側の疾患データベースとして、難病情報センターを調べたが、こちらは「病気の解説(130疾患)」とあるので、130疾患をこえて説明を増やすつもりがないようだ*

 1省の範囲を超えた、大もとのデータベース統合については、「生命科学系データベースの統合化の方針や成果を紹介する合同ポータルサイト「integbio.jp」(インテグバイオ)」として、文部科学省、厚生労働省、農林水産省、経済産業省によるものが運用されている**。ここから辿ると、厚労省による疾患データベースは、GeMDBJ 疾患ゲノムデータベ-スなのではないかと思えたが、これはJSNPのデータをコモンディジーズの研究用に提供するフロントエンドなのではないだろうか? 希少疾患については、どこに厚労省直轄のデータベースがあるのか分からない。

 その代わりに、NCNPによる希少疾患の患者レジストリRemudyへと辿れた。希少疾患データベースは文科省管轄のものをなるべく使って、厚労省管轄は患者レジストリという形で、既に被ることなく分野分けができているのかもしれない。

 日本語による疾患データベースの最後として、GRJを挙げるが、これはおそらく草の根的にデータベース統合事業とは別に運用されている。「サイトの趣旨とご利用上の注意点について」を読むと他からリンクを張られるのに神経質なようなので、ここでもリンクを示さない。しかし、GRJに書かれている内容は秀逸である。基本的には臨床遺伝専門医と遺伝カウンセラー向けである。しかし、それでも、こんな優秀なデータベースほど何とかリンクを張っていいように統合して欲しい。注意書きだけのためにURLが読めないようにフレーム化されていると思われ、どの疾患を読んだか印を付けるために毎回ページ中の適当な文字列をグーグルで検索してフレームを外してから読んでいるので、結局は毎回開こうとする度にウェブ上の全画面広告*のようにした方が、注意書きの効果も向上すると思われる。インターネット検索全盛の時代にフレーム化による注意書きの表示はあまり意味がない。しかし、全画面注意書きの方式にすると医療従事者の方々も毎回注意書きを読むことになるので、便宜性との兼ね合いの上に現在の方式となったのだろう。しかし、これでは統合の考え方とは正反対で、時代に逆行しすぎである。おそらく、もっともよいのはac.jpドメインとor.jpドメイン、umin.jpドメイン、その他医療従事者のドメインを除外して、全画面注意書きを表示して、患者が一般的な情報を得たいようならWikipediaか難病情報センターへのリンクを押すよう判断させることである。手間はかかるが、この部分だけでいいので、データベース統合事業からIT系の人出を借りて行うわけにはいかないのだろうか。結局は、遺伝病をクローズドにしなければならない種類の疾患なのだと世間に印象付けて偏見を煽り、また、臨床遺伝専門医と遺伝カウンセラーへの世間の好感度を下げているように思われる。

 文科省管内でのデータベース統合について、全体的な組織構成として、DDBJ、DBCLS、NBDCの3者の関係を調べる。2014年11月現在である。

DDBJ、日本DNAデータバンク、人的規模43名
国立遺伝学研究所、人的規模102人
ROIS、大学共同利用機関法人 情報・システム研究機構、人的規模413人

ROIS、大学共同利用機関法人 情報・システム研究機構

JST、独立行政法人科学技術振興機構人的規模1500人

DDBJ、DBCLS、NBDCの取り合いとしては、DBCLSがNBDCとDDBJの間に入る形のようだ。インターフェースとしてのデータ・フォーマットをセマンティックウェブのRDFを中心にして決めているようだ。

(『よくある質問』 DBCLS、2014年11月18日閲覧 より)

DBCLSは平成26年度からはNBDCとの「統合データベースにおける基盤技術開発とデータベース運用に係る共同研究」のもと、データベースの統合化と使いやすさの向上のための開発・運用を行っています(平成23年度〜平成25年度はNBDC「ライフサイエンスデータベース統合推進事業」の基盤技術開発プログラムを受託という形でした)。
DBCLSを実際に中心となって技術開発や運用を行うということで「銀行」にたとえるとするなら、NBDCは事業主体として戦略立案や他の機関を統括する「ホールディングス」の役割を担っている、というところでしょうか。

はっきり言うと、現在の段階では、NBDCが、DBCLSの予算上の上位組織であると思われる。実はお世話になったこともあるライフサイエンスQA統合TVもDBCLSによる運営だった。[エクソームシーケンシング...]の節の脂肪酸代謝異常症の年表の中でシーケンサーの図をTogo Picture Galleryから拾っていた。DBCLS Galaxyもここだった。

 現在、文科省の統合データベースプロジェクトが平成22年で終了*し、それに合わせてDBCLSによる統合データベースプロジェクトのウェブサイト内からNBDCなどへとサービスを移行しているようだ。

 ようやくNBDCとDDBJの間でのシーケンシングデータ登録に至ったが、審査は全てNBDCで行われることになっている。シーケンシングデータの保管はDDBJとなっている。混乱の原因が自分でも分かってきたが、DDBJに登録申請する段階では、NBDCがそれほど大事な役割を担っているとは思っていなかったが、次世代シーケンシングデータアーカイブであるDRAのマニュアルの長いページの真ん中のところに、NBDCが審査すると記されている*。そして、NBDCおよび共同発表の説明だとDRAがNBDCヒトデータベースの一部になっている。DDBJの記すDRAと、NBDCの記すNBDCヒトデータベースの中のDRAは、おそらくは同じものを指している。DRAというフォーマットやサーバソフトウェアが共通の別のデータベースが、DDBJ用とNBDC用の2つあるわけではない。最終的にどうなっていくかというと、おそらく混乱するユーザが出る度にDDBJからの説明は減って、NBDCに全部の手順の説明が統合される。あるいはその逆かもしれない。

 最終的に、[検証実験用の山...]で述べた「配列データベースと未診断患者レジストリの統合システム」は、いつ頃に実現可能かというと、だいぶ道のりは遠そうだ。結局14年間*、生命科学データベース統合政策を続けても、dbSNPに近いものを作るとか、dbSNPが3極で統合されている形にするとか、そういう形にはならず、希少疾患の診断に有利な部分は全てdbSNPに依存して、代わりに厚労省のデータベースでは、コモンディジーズ医薬開発用のSNP公開に特化してしまっている。dbSNPが日本で実現するのは10~20年先とみて、むしろ、米国NCBIの配列データベースSRAで私のような患者をどのように処理しているか調べる方が先決と思われる。配列データベースは3極で共有しているため、基本構造が同じはずなので、DDBJのDRAとSRAを比較すると違いが分かりやすいはずだ。

 実際に試してみると、登録自体はできたが、問題が複数あった。

・4つのファイルのうち、2バッチで、2つが反対方向のペアリードの構成になっていると思っていたのだが、登録の際にそれをどう指定していいか分からない。これまでファイル名で指定していた部分が、ファイル名をSRAの表記で統一されるので、コメントか何かで記すしかないのだろうか。また、ダウンロードした拡張子SRAのファイルは、FASTQ形式なのだろうか? GZIPで圧縮した形式でアップロードしたものは、展開されたのだろうか?
Paired-end data submitted in FASTQ format should be submitted in one of two formats: (1) As separate files for forward and reverse reads, in which the reads are in the same order.

All SRA data can be converted to FASTQ format using ‘fastq-dump’. Since SRA data are stored in a concatenated form, it is important to note that specific options may have to be invoked in order for paired-end fastq to be formatted correctly during output. It is recommended that new users review fastq-dump documentation to ensure proper output formatting before committing to large dataset extractions
http://www.ncbi.nlm.nih.gov/books/NBK242622/?report=reader
・リード長を入力する欄があり、最も安価なシーケンシング構成のはずなので、HiSeq2500の高速モードでの最大長の250としたが、本当に250かどうかFASTQを直接読めば分かるのだろうか?
・FASTQをアップロードして公開するとファイルサイズが小さくなっている。公開されるとFTP先のファイルは削除されるので確認できず、もう一度FTPでアップロードして、アップロード直後の大きさを確認する必要がある。
・ダウンロードして確認しようとした際に、Asperaを用いたダウンロードをどう指定していいか分からず、FTPの選択肢しかないように見える。当然ながら、時間がかかる。
・削除の操作をフォームで行うことができず、直接メールして手動で削除してもらうしかないようだ。度々は依頼できないので、今後は、1ファイルをアップロードするごとにファイルサイズの変化を確認して慎重になる必要がある。modificationはフォームから操作できるようだが、Runの削除まではできないようだ。新しいRunを追加してから、古いRunが古いものであることをコメントで残すしかない。
The modifications can be made using the online submission tool that was used to create the records. If you wish to delete or move a record, please contact us at vog.hin.mln.ibcn@ars. Only the center or individual that created the record can change it. 
http://www.ncbi.nlm.nih.gov/books/NBK47539/
・StrategyとしてWXSとしたのに、なぜかWhole Genome Sequencingと表示されている。この点もコメントに書かないといけないようだ。
・結局次の文言が表示されてプライバシーコンサーンがないことを、2回確認されるだけで登録できたが、本当にそれでいいのだろうか。もちろん、本人が登録しているのだから、プライバシーコンサーンがないのは当たり前なのだが、DDBJと比べて理由を尋ねられなかったのが今になって逆に気になる。今回の場合はシーケンシングを行ったのも米国内でしかも日本国内で検体の採取を行ったという記録も存在しないので、それを米国のデータベースに登録するにあたって、日本の法律や規制はより一層関係ないと主張できるが、BGIでシーケンシングを行っていたら、まさか中国の規制が関係してくるのだろうか?
Only use for human samples or cell lines that have no privacy concerns. For all studies involving human subjects, it is the submitter's responsibility to ensure that the information supplied protects participant privacy in accordance with all applicable laws, regulations and institutional policies. Make sure to remove any direct personal identifiers from your submission. If there are patient privacy concerns regarding making data fully public, please submit samples and data to NCBI's dbGaP database. dbGaP has controlled access mechanisms and is an appropriate resource for hosting sensitive patient data.

0 件のコメント:

コメントを投稿