top of page

研究評価に関するサンフランシスコ宣言とライデン宣言とは

更新日:14 分前

あけましておめでとうございます。

2026年から第7期科学技術・イノベーション基本計画が始まる予定で、科学技術政策も新たなフェーズに入ります。また今年度は長年削減されてきた科学研究費・運営費交付金も増額され、科学技術への支援が強化される見通しです。

その背景に日本の研究力が低下しているという議論があります。ただ研究力とはそもそもどういうものなのでしょうか?



研究力が下がっている議論の背景には?


研究力の低下でよく使われる指標に、引用数の高い論文の順位というものがあります。論文の引用数が高ければ高いほど注目されているという考えのもの、その注目論文がどの程度の順位かというものが指標になります。

2021年から2023年の日本の位置は、論文数は世界5位ですが、引用数の高い論文の数が13位と低迷しているということです。確かに他の国と比較しても論文数と引用数のランキングが異なるのは日本特有の問題のようです1)。



また基礎的な研究力の指標である論文の指標だけでなく、研究開発効率、つまり産業レベルでの研究開発の有効性を調査したところ、そちらも低迷しているという結果になりました2)。


ちなみになぜ研究力が低下しているのかの原因は明らかになっていません。日本の研究開発費は世界3位といまだに高い水準を保っています。また、研究者数も世界3位です。日本の研究費不足、人材不足が指摘されていますが、実は研究費も人材も世界に引けをとるものではありません。


研究力が下がっているのか?


研究力が下がっている根拠の大きな指標となっているのが論文の引用数です。ただ論文の引用数は必ずしも質につながっていないという指摘があります。論文の引用数は質よりもオープンアクセス、つまり無料で読めるかどうかにかかわっていたり3)、研究者が仲間内で引用しあう引用カルテルが起きていることも指摘されています4)。また、何年も引用されなかった論文が突然爆発的に引用され始める「眠りの森の美女」現象も確認されており、論文の引用数と質との関係は計量書誌学、つまり論文の質を量的に測定し検討する研究の中では懐疑的に取り扱われることがあります。


研究評価についての2つの宣言


論文が電子化されることによって、統計的な手法を使って論文の流通を定量的に分析する「計量書誌学」が研究評価に取り入れられるようになりました。ただ、計量書誌学だけでは論文の質を測定してはならない認知も広がり始めています。


研究評価について2つの宣言をここでは紹介しましょう。


まずはじめに、2012年に学術雑誌の編集者と出版者のグループがサンフランシスコで開催された米国細胞生物学会(ASCB)年次会議の際に作成した「研究評価に関するサンフランシスコ宣言(San Francisco Declaration on Research Assessment; 通称DORA)」が策定されました。

DORAは研究評価を量的な観点からのみ評価することに下記のように反対しています。DORAにはJSTや東京大学も署名しています。


一般勧告

  1. 個々の科学者の貢献を査定する、すなわち雇用、昇進や助成の決定をおこなう際に、個々の研究論文の質をはかる代替方法として、インパクトファクターのような雑誌ベースの数量的指標を用いないこと。

助成機関へ

  1. 助成申請者の科学的生産性の評価に用いられる判断基準が明示的であること。また、特にキャリアの初期段階にある研究者に対して、出版物の数量的指標やその論文が発表された雑誌がどのようなものであるかということよりも、その論文の科学的内容の方がはるかに重要であることを、はっきりと強調すること。

  2. 研究評価を行う上で、研究出版物に加えて(データセットやソフトウェアを含む)研究のすべての成果の価値とインパクトを検討すること。また、政策や実用化への影響といった研究インパクトの質的な指標を含む、幅広いインパクトの評価基準を考慮すること。

学術機関へ

  1. 雇用、任期、昇進を決定する際に用いられる判断基準が明示的であること、特にキャリアの初期段階にある研究者に対して、出版物の数量的指標やその論文が発表された雑誌がどのようなものであるかということよりも、その論文の科学的内容の方がはるかに重要であることを、はっきりと強調すること。

  2. 研究評価を行う上で、研究出版物にくわえて研究の(データセットやソフトウェアを含む) すべての成果の価値とインパクトを検討すること。また、政策や実用化への影響といった研究インパクトの質的な指標を含む、幅広いインパクトの評価基準を考慮すること。

出版社へ

  1. 販売促進手段としてのインパクトファクターの強調を大幅に縮小させること、理想的にはインパクトファクターの宣伝を中止すること、または雑誌のパフォーマンスについてより豊富な視点を与える様々な数量的指標(例、5-year impact factor、EigenFactor [8]、SCImago[9] 、h-index、編集 と出版に要する時間等)の文脈に沿った上でインパクトファクターを提供すること。

  2. 様々な論文レベルでの数量的指標を利用可能にすること、それによって論文が発表された雑誌についての数量的指標ではなく、論文自体の科学的内容を基にした評価への転換を促すこと。

  3. 責任あるオーサーシップの慣行と各著者個別の貢献についての情報提供を促すこと。

  4. 雑誌がオープンアクセスであろうと購読モデルであろうと、研究論文の参考文献リストについての再利用の制限を取り除き、それらをクリエイティブコモンズのパブリックドメインの下で利用できるようにすること。

  5. 研究論文のレファレンスの数についての制限を縮小、または廃止させること、そして必要に応じて、最初に発見を報告したグループの功績を認めるために、レビューではなく原著論文の引用を義務付けること。

数量的指標を提供する機関へ

  1. すべての数量的指標は、それを計算するために使われたデータと方法とを提供することにより、オープンかつ透明であること。

  2. 無条件の再利用を認めるライセンス下でデータを提供し、可能な限りコンピュータからアクセスできるようにすること。

  3. 数量的指標の不正な操作が決して許されないよう明確に示すこと、また不正な操作に相当するものとは何か及びこれに対する措置について明示的に示すこと。

  4. 数量的指標が使われ、集約され、あるいは比較される際に、論文のタイプ(例、 レビュー記事 vs 研究論文)あるいは異なる対象領域において生じる数量的指標の差異について、説明すること。

研究者へ

  1. 研究助成、雇用、任期、昇進について決定する委員会に参加した場合は、出版物の数量的指標ではなく科学的内容を基にして評価を下すこと

  2. 認めるべき功績を認めるために、適切である限り、レビュー記事ではなく観察結果が最初に報じられた原著論文を引用すること。

  3. 個人の発表した論文やその他の研究成果のインパクトの根拠として、自己推薦書では、論文に関する様々な種類の数量的指標を用いること。

  4. インパクトファクターに不適切に依存している研究評価の慣例を批判し、個別の研究成果の価値や影響に注目するベストプラクティスを推進し、振興すること。


また、2014年にオランダのライデン大学で開催されて計量書誌学の国際会議19th International Conference on Science and Technology Indicators (STI 2014)での議論をきっかけに、計量書誌学の専門家による計量データ・指標の責任ある利用のガイドラインが作成されました。これがライデン声明です。ライデン声明は以下の10つの原則で構成されています。


原則1 定量的評価は、専門家による定性的評定の支援に用いるべきである。

定量的計量は、ピアレビューで生じやすいバイアスについて異なる見方を提示し、考察を深めるのに役立つ。同業研究者について判定することは広範な関連情報なしには難しいので、これによりピアレビューは強化されるはずである。しかしながら、評定者は意思決定を数字に任せてはならない。指標は情報に基づく判定を代替してはならない。評定者はそれぞれが行う評定に責任を保持している。


原則2 機関、グループ又は研究者の研究目的に照らして業績を測定せよ。

プログラムの目標はその開始時に明示されるべきであり、また、業績を評価する指標は、それらの目標と明確に関係付けるべきである。指標の選択やその活用に際しては、より幅広い社会経済的及び文化的な状況を考慮すべきである。科学者の研究目的は様々である。学術的知識の最前線を進める研究と、社会的問題の解決を目指す研究とは目標が異なる。学術的なアイディアの卓越性よりも、政策、産業、あるいは公衆への貢献に基づく評価もある。全ての状況に適用できる単一の評価モデルはない。


原則3 優れた地域的研究を保護せよ。

世界の多くの地域で、優れた研究は英語で発表されると見なされている。例えば、スペインの法律は、同国の学者が高インパクトの雑誌に発表することを望ましいとしている。インパクトファクターは、米国中心で、いまだにほとんどが英語であるWeb of Science収録の雑誌を対象に計算されている。こうしたバイアスは、国・地域についての研究が多い人文・社会科学において特に問題が大きい。他の多くの分野でも、国・地域という側面を持つ。例えば、サハラ以南アフリカにおけるHIVの疫学などの例がある。

しかし、このような多元性や社会的関連性は、高インパクトのゲートキーパーたる英語雑誌の関心を得るような論文を創出するために抑制される傾向がある。Web of Scienceで高引用を得ているスペインの社会学者たちは、抽象モデルに長年取り組んでいるか、米国のデータの研究を行っている。高インパクトのスペイン語論文では、地域の労働法、高齢者のための家族健康管理、移民の雇用などのトピックについての社会学者の独自性が失われているa)。優れた地域的研究の発見・それらへの報奨の付与のためには、高品質の非英語文献に基づいた計量が有用であろう。


原則4 データ収集と分析のプロセスをオープン、透明、かつ単純に保て。

評価のために要求されるデータベースの構成は、明確に表現された規則に従い、研究が終了する前に設定されるべきである。これは、数十年にわたり計量書誌学的評価の方法論を確立してきた学術グループと商業グループに共通の経験である。これらのグループは、査読論文に公表されたプロトコルを参考としてきた。この透明性は精密な検討を可能とした。例えば、2010年に、我々のグループの一つ(ライデン大学の科学技術研究センター(CWTS))が用いていた重要な指標の技術的性質について公開の討論が行われ、この指標の計算法の改訂に結び付いたb)。最近参入している商業グループも同様な標準に従うべきである。また、ブラックボックスの評価マシンを受け入れるべきではない。

指標が単純であることは、その透明性を増すことであり長所である。しかし、単純化した計量は記録をゆがめることもある(原則7参照)。評価者は、バランス(研究過程の複雑性に忠実である単純な指標)を得ることに努めなければならない。


原則5 被評価者がデータと分析過程を確認できるようにすべきである。

データの品質を確かなものにするため、計量書誌学的調査の対象となる全ての研究者が、自分の成果が正確に同定されていることをチェックできるようにすべきである。評価過程の指揮・管理者は全て、自己確認又は第三者の検査によりデータの正確性を保証すべきである。大学は、その研究情報システムの中にこれを実装することができるだろうし、それは、これらのシステムの提供者の選択の指針であるべきである。正確で高品質なデータの照合・処理には時間と資金を要する。そのための予算を惜しんではならない。


原則6 分野により発表と引用の慣行は異なることに留意せよ。

ベストプラクティスは、一揃いの指標候補を選び、分野によってその中から選択できるようにすることである。数年前のことだが、欧州のある歴史学者のグループが、その国のピアレビュー評定において比較的低い評点を得たことがあったが、それは、このグループが、Web of Scienceに収録される雑誌よりもむしろ図書に成果を発表しているためであった。この歴史学者は不運なことに心理学の学科に属していた[歴史学者が心理学の学科に属していたため、雑誌論文によってピアレビュー評定がなされたという意味だと思われる]。歴史学者や社会科学者は、成果のカウントに際して図書や自国語の論文が含まれることを要求するし、計算科学者は会議論文がカウントされることを要求する。

分野により引用傾向は異なる。トップにランクされる雑誌のインパクトファクターは、数学ではおよそ3、細胞生物学ではおよそ30である。[この差を埋めるための]規格化した指標が必要である。最も頑健な規格化法はパーセンタイルに基づくものであり、各論文は、それが属する分野の被引用数分布中のパーセンタイル位置(例えばトップ1%、10%、20%)に従って重み付けされる。非常によく引用される論文1件は、パーセンタイル指標に基づくランキングでは、大学の位置を僅かに上げる程度だが、平均被引用数に基づくランキングでは、中位から一挙にトップまで押し上げることがあり得るc)


原則7 個々の研究者の評定は、そのポートフォリオの定性的判定に基づくべきである。

h指数注2は、新しい論文がなくても年齢を重ねるほど高くなる。h指数は分野によっても異なる。トップレベルの研究者の場合、生物学では200、物理学では100、社会科学では20–30程度であるd)。この値は、[h指数の計算に使う]データベースにも依存する。計算科学分野では、Web of Scienceではh指数が10前後であるが、Google Scholarでは20–30である研究者がいるe)。研究者の成果物を読んで判定する方が、一つの数字に頼るよりもずっと適切である。多数の研究者を比較する場合でも、個々の専門性、経験、活動及び影響に関するより多くの情報を考慮するやり方が最良である。


原則8 不適切な具体性や誤った精緻性を避けよ。

科学技術指標は、その概念が曖昧で不確かになりがちであり、また、普遍的には受け入れられない強い仮定に立っていることがある。例えば、被引用数の意味も長らく論争されてきている。したがって、ベストプラクティスは、より頑健で複眼的な描像を与えるように複数の指標を用いることである。もし不確かさや誤差が定量化できるのであれば(例えばエラーバーの形で)、その情報を公表される指標値とともに示すべきである。それができない場合、指標の作成者は少なくとも誤った精緻性を避けるべきである。例えば、[Journal Citation Reportsでは]インパクトファクターを小数点以下3桁まで表示して同点の雑誌の出現を避けるようにしている。しかし、被引用数の概念上の曖昧さやランダムな変動性を考慮すれば、このような僅かなインパクトファクターの差によって雑誌を区別する意味はない。誤った精緻性は避けよ。小数点以下1桁で十分である。


原則9 評定と指標のシステム全体への効果を認識せよ。

指標は、それがもたらすインセンティブによってシステムを変化させる。これらの効果を予期しなければならない。このことは、一揃いの指標を用いることが常に望ましいことを意味する。単一の指標は、ゲーム化や目標の取り違えを招く(指標の測定自体が目標になる)。例えば、1990年代のオーストラリアでは、機関からの発表論文数に大きく依拠する数式を使って大学の研究への資金配分を行った。大学は査読制雑誌の1論文あたりの「価値」を計算することができた。2000年時点でのその価値は800豪ドル(当時のレートで約480米ドル)の研究資金に相当した。予想されたように、オーストラリアの研究者が発表する論文数は増加したが、それらは被引用数の低い雑誌に集中し、論文の質の低下を示唆したf)


原則10 指標を定期的に吟味し、改善せよ。

研究の目的と評定の目標は変化し、それに伴って研究システム自体も共進化する。かつて有用であった計量が不適切になり、新しいものが現れる。指標のシステムも見直しが必要であり、適時修正しなければならない。[原則9で述べた]単純な数式の影響に気付いて、オーストラリアは2010年に、より複雑で質の面を強調したExcellence in Research for Australiaイニシアティブを導入した。


a)López Piñeiro, C. & Hicks, D. Reception of Spanish sociology by domestic and foreign audiences differs and has consequences for evaluation. Res. Eval., 2015, 24(1), 78–89.

b)van Raan, A. F. J., van Leeuwen, T. N., Visser, M. S., van Eck, N. J. & Waltman, L. Rivals for the crown: Reply to Opthof and Leydesdorff. J. Informetrics, 2010, 4(3), 431–435.

c)Waltman, L. et al. The Leiden ranking 2011/2012: Data collection, indicators, and interpretation. J. Am. Soc. Inf. Sci. Technol., 2012, 63(12), 2419–2432.

d)Hirsch, J. E. An index to quantify an individual’s scientific research output. Proc. Natl Acad. Sci. USA, 2005, 102(46), 16569–16572.

e)Bar-Ilan, J. Which h-index? — A comparison of WoS, Scopus and Google Scholar. Scientometrics, 2008, 74(2), 257–271.

f)Butler, L. Explaining Australia’s increased share of ISI publications—the effects of a funding formula based on publication counts. Res. Policy, 2003, 32(1), 143–155.


DORAは反対する勧告、ライデン声明は定量的評価の際のガイドラインという違いはありますが、研究評価の単純化に対する勧告です。


2026年、研究助成の金額が増え、研究成果の評価の機会も増えることとなります。その際、果たして二つの宣言が勧告するような質の高い研究評価のシステムまで整備されるのかというのは注視していく必要があります。


ぜひ、皆さんも研究評価の新しい潮流に注目してみてください。


参考文献

2)OECD (2023), Artificial Intelligence in Science: Challenges, Opportunities and the Future of Research, OECD Publishing, Paris, https://doi.org/10.1787/a8d820bd-en.

3)Pablo Dorta-González, María Isabel Dorta-González, Citation differences across research funding and access modalities, The Journal of Academic Librarianship, Volume 49, Issue 4, 2023

4)「サイエンス・ファクト : 科学的根拠が信頼できない訳」(塚本浩司/監訳,多田桃子 /訳,Leng G & Leng RI/著),ニュートンプレス,2023

5)van Raan, A.F.J. Sleeping Beauties in science. Scientometrics 59, 467–472 (2004). https://doi.org/10.1023/B:SCIE.0000018543.82441.f1


bottom of page