2015年3月23日月曜日

学術論文は誰のもの? - STAP細胞騒動の功罪

UNdiagnosed』にまとまりをもたせるために、節の分離作業を行っています。

 [エクソームシーケンシング]の節で、ACAD9欠損症という希少疾患について、Google Scholarによる検索で内容が読めるかのように表示された学術論文が、出版社のサイトまで辿ると40000円という価格を一番に表示されてショックを受けたので、なぜこういったことが起こるのか考察を行った。米国のNIHパブリックアクセス義務化という政策は、税金使途の透明性という国家予算の健全性を保つだけでなく、世界中の希少疾患の患者にとって適切な情報提供が行われる点から非常によいことだと再認識したが、そういったオープンアクセス運動への日本からのコントリビューションは想像以上に少なそうだと結論した。学術論文にまつわる騒動としてSTAP細胞騒動が起こっていたので、それについても述べる。

 ACAD9欠損症をエクソームシーケンシングから同定、診断した最も有名と思われる学術論文を、学術出版社のサイトから表示したものの、ウェブページを下にスクロールすると本文を読みたければ40000円支払うか、3300円支払うか、どちらかのボタンをクリックするよう促されている。図はこれを見た瞬間の私の気持ちを表現してみた。真ん中のReadCubeという選択肢は仕組みとして複雑なので私を含めて一般人には何のことだか分からない。学術論文をグーグルで検索すると、まるで本文が読めるかのように表示されるので、こんなときものすごく落ち込む。こういったことが起こってしまう原因を探る前に、用語が学術文献と学術論文の間で揺らいでいるため、ヒットカウント分析を行う。2014年12月14日の結果である。

"医学文献" 約 631,000 件
"科学文献" 約 605,000 件
"学術論文" 約 500,000 件
"医学論文" 約 407,000 件
"科学論文" 約 197,000 件
"学術文献" 約 56,400 件
"医療論文" 約 52,000 件
"生命科学文献" 約 35,200 件
"医療文献" 約 21,500 件
"生命科学論文" 約 15,100 件
"学術文書" 約 2,990 件
"医学生物学文献" 約 2,610 件
"科学文書" 約 1,110 件
"医学生物学論文" 約 1,090 件

意外なことに、科学や学術よりも医学と分野を絞ったほうが検索結果数が大きい。絞ると小さくなると考えるのが通常と思われるが、どうもそうではない。しかし、医学に限ると生物学の論文を含みにくくなる。そこで"医学生物学文献"と"生命科学文献"も足したが、冗長な記述になった割に検索結果数は芳しくない。科学論文とすると生物学も含まれるが、今度は医療情報工学はどうなるのだ、DICOMや、HL7といった、そこまで応用的な研究まで科学に含むとややこしいではないか、という話になる。上位から3番目の"学術論文"で統一したい。Wikipediaでも学術論文となっている。

 グーグルの検索で本文が読めるかのように表示される機能は、書籍と学術論文で処理が分かれているようで、書籍のGoogle Booksが著者か出版社から直接PDFを送るといったBooks Partner Programまたは図書館との連携で実現されているのに対し、学術論文のGoogle Scholarは学術出版社の連合とでも言うべきCrossRefというサービスを経由して実現されているようだ§。連合している出版社や学会の数は2014年10月時点で5375にものぼる*ようだ。STAP細胞騒動のNatureと同じ出版社なので、日本のせいでいい迷惑だと思って、日本からのアクセスに対してのみ厳重に課金しているのかもしれないと思わず勘ぐってしまう。

 STAP細胞騒動については、査読の真実を知れば知るほどインパクトファクターといった数値が優れた有名誌に載せるという努力は、有名誌のゆの字にも載ったことがない私が言うのも何なのだが、組織力学的に変な方向の努力だと思う。患者や一般人から見れば、学術雑誌のサイトライセンスなどに参加できるはずもなく、かといって先述のように論文あたり3300円も支払えるのは本当に自分の疾患の診断や治療に重要と分かっている場合に限られ、選択肢としては、世界中のあらゆるサイトに学術論文の本文がアーカイブされていないか網羅的に探しだしてくれているGoogle Scholarが、唯一の既成標準なのである。そしてGoogle Scholarの表示する引用元というのが文献の重要性の事実上の指標である。

 例として、[エクソームシーケンシング]の節の学術論文のPDFをGoogle Scholarで探しだす場合は、Exome sequencing identifies ACAD9 mutations as a cause of complex I deficiencyという論文タイトルをそのままにグーグルで検索するとGoogle Scholarの特定の論文と強い関連性が認められた場合は検索結果の最上位に「引用元」付きで表示される。論文タイトルをそのままではギリシャ文字などが邪魔をしてうまく検索できない場合もあり、その場合は、Google Scholarを呼び出してギリシャ文字などを徐々に削除して試すしかない。同じ論文について複数の「バージョン」を表示するために、論文のタイトルではなく、その下の「引用元」の方をクリックして、次に最上位に表示されている論文のタイトルをクリックする。この結果表示を正しくは何と呼ぶべきか分からないが、一つの論文について、世界中から探してくれた論文本文が含まれるPDFやHTMLのバージョンを列挙する表示になったはずである。[HTML]が付いているバージョンの場合には、ほぼ全文無料で読めるが、[PDF]が付いているバージョンの場合には、無料の場合だけでなく有料の場合も含まれる。しかし、以前は表示されなかったが、2014年12月現在は以下のように、ある次世代シーケンサー用品のメーカーが無料のPDFを公開してくれている。

[PDF] Exome sequencing identifies ACAD9 mutations as a cause of complex I deficiency
agilent.com の [PDF]

メーカーの手で複数の論文が1つのPDFにまとめられているが、確かに本文が含まれている。どういう契約になっているのかは分からないが、こういったメーカーは基本的にお金持ちなので、メーカーから学術出版社の方に料金が支払われているのであろう。ただし、料金を下げるために製品サイクルに合わせた期間限定の契約かもしれないので、取り急ぎダウンロードしておいた方が後悔しなくていい。

 このように見ると、やはり網羅的にインターネット上からPDFやHTMLを探しだしてくれるというのは、貧しい者にとっては非常にありがたくて、遺伝性疾患の患者の多数が医療費に圧迫されて、たとえ収入はあったとしても実質的にかなり貧乏なことが多いため、選択肢としてはGoogle Scholar以外に事実上存在しない。

 この状況では掲載されたのが有名誌かどうかなどどうでもよくて、本文が読めて、「引用元」が多い学術論文が、研究員以外という世界人口の圧倒的多数にとって、最もありがたがって読まれる学術論文なのである。むしろ、なぜ有名誌に掲載して読めないようにするのだ、程度の大小はあれどもいくらか税金を使って研究員の給料が支払われて行われたはずの研究なのに、という話になる。NIHパブリック・アクセス義務化という、米国の政策は、こういった声に答えるための政策と考えられる。

 STAP細胞騒動を振り返って、過剰に焦りながら有名誌に載せようとするのを「組織力学的に変な方向の努力」というのは、結局、引用元数という指標ができてしまっているのに、それでも記者会見やら報道発表やらで、理研という組織として、過剰に有名誌に掲載済みの重大な研究結果であることを宣伝しないといけないほど、理研の予算は少なくないはずだと思うからである。過剰に宣伝しなかった方が、逆に理研は、特定国立研究開発法人となってより多くの予算を獲得できたはずである。ものすごく頭のいい人々によって、組織力学的にものすごく頭の悪い意思決定が行われている。本来は何も宣伝などしなくても、優れた研究結果は引用元数といった指標に反映されて、その指標によって客観的に次年度の予算編成が行われるべきなのだが、指標と予算がダイレクトに連動されず、ものすごく頻繁に相談事をして組織や部門の力関係の間で予算分配が行われるのが当たり前と考えてしまっている。「指標と予算」は、学術分野が専門化されて、全体像を誰も把握できなくなる傾向が強くなるにしたがって、将来的によりダイレクトに、客観的に、自動的に連動すべきである。予算が組織の力関係によって決まるという愚かなパラダイムを、そろそろ見直すべきではないだろうか。

 ここで組織と述べたが、実は研究員は二重三重の組織構造に拘束されている。一つは所属となっている給料の支払元の組織である。二つ目は国内での予算の獲得のための組織である。STAP細胞の場合は、理研と山梨大学の研究室を含めた構成だったのだろうと思われる。三つ目は国を超えて同じ研究の発展を促進するための研究グループという、STAP細胞の場合はバカンティを含めた組織である。四つ目は学会という専門分野としての組織である。ここまでややこしいことになっているから、組織力学的な予算編成が促進されるのであって、本来ならばもっと単純化、一元化すべきではないだろうか。これがSTAP細胞過剰宣伝事件の、大元の背景なのではないだろうか。

 「過剰宣伝事件」と述べたように、過去の同分野の事件ほど、今回の事件は悪質とは思わない。最も大規模なものは、ES細胞論文不正事件であろうと思われるが、かなり意図的に組織的に生命倫理的に様々なことが行われたという意味で悪質で、これが「不正事件」とすれば、STAP細胞は「過剰宣伝事件」であろうと思われる。はっきり言ってミトコンドリアが元気になるそうなコエンザイムQ10が何年にもわたって現在もお年寄りから集めている金額が調べれば調べるほど天文学的な数値になるのに比べれば、STAP細胞騒動は偶発的である。不特定多数が算定できる金額として被害を負ったわけでもないし、誰かが南の国から持ち込んで別の誰かが死にそうになるエボラや、地震や噴火や洪水やみたいに、死者など出るはずもない。マウスの段階で再現しないのだから、ヒトでiPS細胞由来の網膜を目に入れてみるのとは重要性も違う。・・・あえて遠回しなルートまで含めれば、一番の被害者として、ヒトの膵臓ができるのを待っている膵臓がんの患者が、STAP細胞騒動の影響で研究開発が遅れて更に待たされる間に天に召される・・・ことは、確かにありうるが・・・。理研も法人格を上げられなかったし、自殺というとても不幸な形で優秀な研究者が亡くなられたことでいくらか責任をとったと考えていいように思う。小保方さんご自身も検証が甘かった点はご自分でよく分かっていると思う。そこまで分からない人はP=0.01%未満といったとても高い確度で理研は雇わない。(2015年3月時点の情報で言うと、私がかつて思っていたよりも、小保方氏の手順は意図的な不正というべきものでした。)私も3年間理研でお世話になり、平たく言うと契約更新で不採用となり理研に残れずに別の法人に雇っていただいたので多少分かる気がする。それよりも、問題はNature Geneticsと出版社である。

 40000円などという金額を表示してしまうと、STAP細胞などに興味をもってせっかく調べに来た普通の人が読んで、科学を嫌いになっていくのがまだ分からないのだろうか? 普通に1本当たり3300円と先に書けばいいのに、がんになって生きられる時間がないから死者ぐるいで治療法の論文をあさっている患者が思わず押してしまいそうなところになんで40000円のボタンを配置するのだ? 研究機関や企業の人たちはサイトライセンスで割引適用大量購入*するはずなので、このボタンの対象は思いつきで学術雑誌を購読するような研究者ではない。初めて見るから購読の市場価格を知らない人たちを狙ったもので悪質だ。ACAD9の論文についてのみ出版社がこういった表示をしているとは思えず、幹細胞の論文でも同様だろう。STAP騒動はみんなの興味を引いて日本全国、あるいは全世界で、同じ科学と倫理の話題でいっしょに勉強したという点でよい点もあった。全世界の英語を読める人口がSTAPに興味をもって学術論文を検索していると思われるので、この出版社による資本主義的に金額を提示した拒絶はとんでもない数の科学嫌いを生み出している。欧米で進化論が嫌いな神を信じる人々の気持ちが今なら私もよく分かる。一部でプレデターなどと呼ばれる出版社があるわけだ。

 オープンアクセスの達成率を調べてみることにした。2008年に厚生労働省の研究部門に相当する米国NIHにパブリック・アクセス方針という修正法案のようなものがかせられて§、患者が無料で読める医学の学術論文の範囲が劇的に広がった。一般的に無料で読めることをオープンアクセスと呼んでいて、NIHに関する場合だけパブリック・アクセス方針と称しているようだ。2014年にパブリック・アクセス方針は更に強化され、オープンアクセスの論文数が増えていることが発表されている§のだが、最も知りたいのは、全論文数に対して何割ぐらい、Nature Geneticsのように読みたいのに金額を提示されるケースがあるのかだ。結局米国について2013年の医学に限った正確な値は分からず、トータルの論文数は増えていても、オープンアクセスの割合としてはどうやら過去に期待されたほど進んでいない可能性が高い。国を区別しない限り、2008年に出版された論文のうち、分野別にMedicineで緑*13.9+金7.8=21.7%、Biochemistory, Molecular & Genetics Biologyで13.7+6.2=19.9%、Other Areas Related to Medicineで10.6+4.6=15.2%となっている。一部に英国のClinical Medicineで30.6+3.8=34.4%、34+4=38%という非常に大きな割合が示されているのだが、論文を辿っても結局なぜこんなに良い値になるのか分からなかった。

 調べた限りは、医学分野では大きく見積もっても30%程度しかオープンアクセス化が進んでいないようで、まだ当面Nature Geneticsのような表示に慣れなくてはならないようだ。日本の状況として示せるのは、Wikipedia英語版には"Open access mandate"「オープンアクセスの義務化」というページがもうけられていて、辿るとオープンアクセスの義務化をおこなった研究機関の一覧にいきつく。結局日本は2014年10月現在、国際基準でオープンアクセスをしているのは、北海道大学だけということなのだろうか? 少なくとも、英国のNature Geneticsに文句が言える立場でなさそうなのはよく分かった。

 日本でもCiNii(サイニィ)の元に学術論文が集められているではないかと言われれば、確かにそうかもしれないが、患者が無料で読める文献は英語よりも圧倒的に少ない。一ヶ国の患者だけでは希少疾患の症例数が診断基準を形成するのに少なすぎる場合があり、人類規模で症例を集めることに特に意義があるため、罹患率の小さい希少疾患ほど、英語で検索する方がよい。日本で5000も希少疾患があると考えられていない大もとの原因は、はっきり言うと、英語の文献を検索してちゃんと読める医師が限られるからである。というべきか、ほとんどの医師が大学のときには英語論文を検索するようなことを普通にやっていたはずだが、毎日多すぎる患者を診ている間にできなくなってしまっている。必然的に罹患率が非常に小さい希少疾患の多くを無視することになる。それなのに、医師の中でも支払っている者しか日本語の学術論文でさえ読めなくしてしまう現在の仕組みに、意味があるのだろうか?

 日本の患者が読めるよう、日本語の論文のオープンアクセスが増えることを願ってやまない。やはり、我々も広い意味では納税者なのである。英語圏が公費で行われた研究結果についてオープンアクセスを目指している状況下では、日本語で書かれただけで既にクローズドなのに、さらに読み手を限って更にクローズドにする意味は、すでにない。

0 件のコメント:

コメントを投稿