PubMedで論文を探す3つの方法

論文はインターネットで見つかる

 

f:id:emoriiin979:20200412231859p:plain

インターネットには色々な情報が公開されています

 

研究者という生き物は、論文をよく読むものです。論文を読むことで、自分の研究分野の先行研究を知ることができるからです。

その分野の基礎知識を身につけるだけでなく、同じ研究を繰り返してしまうことを防ぐという役割もあります。これらの理由から、研究者は論文を探して読むことを半ば強制づけられているのです。

 

ちなみに、研究論文は英語で書かれています。これは、研究というものが様々な国を横断して行われており、そのための共通言語が英語であるからです。少なくとも生命科学においては、国際学会と論文では英語が使われています。

そのため、英語論文が先に出版され、その後に日本語の情報に翻訳されるという流れが一般的です。したがって、直近の先行研究を知るには英語論文を読むしかありません。以降の文章では、英語の論文のみを対象とし、日本語の論文は扱いません。

 

 

さて、論文の探し方ですが、ひと昔前までは科学雑誌を隅々まで読んで、自分に必要な論文を探すというのが一般的でした。しかし、雑誌の中には自分には必要のない記事も多く掲載されているため、効率はあまりよくありません。

そこで、近年ではインターネットによる論文検索が盛んになっています。調べたいキーワードを入力してやれば、そのキーワードに関連する論文が自動的に表示されます。Googleの台頭によりインターネット検索が容易になった現代ならではの方法です。

 

しかし、Google検索では論文を探すのが少し困難です。Google検索は論文以外のページも出力するからです。例えば、「aging human」で検索してみると、検索結果の上位から見て、Wikipedia、ブリタニカ、アマゾンの次にようやく論文がヒットします。どうやらGoogle検索以外で論文検索に適したサービスを探す必要がありそうです。

 

 PubMedは本当に使えるのか?

 

f:id:emoriiin979:20200412232204p:plain

PubMedを過大評価していないか?

 

研究テーマは「老化」なので、医学論文を検索できるサービスが望ましいです。いくつか調べてみたところ、「外国語医学系論文を探すならPubMed」と、太鼓判を押す記事[1]を発見しました。

 

PubMedNCBIというアメリカの機関が運営する論文検索サービスであり、MEDLINEやPMCなどの論文アーカイブに保管されている論文の要旨を検索することができます。

実はPubMedは私が院生の時にもよく利用していたので、どのようなサービスなのかは知っています。おそらく他の学生たちもPubMedで論文を探していたと思われます。

 

ただし、PubMedがどれほど「優れている」のかは、実のところ良くわかっていません。あまり性能が良くないようなら、他の検索サービスを利用するべきかもしれません。そこで、今回はPubMedの有用性を評価するために、こちらの要求を満たせる機能を有するかどうかを調べてみました。

この記事では、3つの課題を用意し、それらの課題をPubMedが達成できるかを評価します。検索結果の上位10件の論文を調査し、それらがこちらの要求を満たせているかを評価基準とします。

 

課題1 老化のレビュー論文を探す

 

f:id:emoriiin979:20200412232503p:plain

論文の海に埋もれるえもり

 

レビュー論文というのは、特定分野の論文を複数用意し、それらをまとめ・批評したものです。老化のレビュー論文を読めば、老化に関する論文の情報を一度にたくさん得ることができます。そのため、レビュー論文を探すのは、研究分野の概要を理解するのにうってつけです。

 

まずは、PubMedのトップページにアクセスします。トップページには検索ボックスが用意されているので、そこに調べたいキーワードを入力します。今回は、老化に関する論文を探したいので、「aging」と入力しました。

 

f:id:emoriiin979:20200402221831p:plain

PubMedのトップページ。最近デザインが一新されました。

 

およそ47万件の論文がヒットしました。この中から、レビュー論文に該当するものを探します。ページ左側のチェックボックスをクリックすると、その条件に該当する論文のみを抽出することができます。

 

f:id:emoriiin979:20200402221902p:plain

PubMedの検索結果。左側にフィルタリング条件が列挙されています。

 

今回のフィルタリング条件は、「Free full text」、「Systematic Reviews」、「Publication date: 2018.4-2020」、「Humans」としました。これで、無料でフルテキストを読むことができる論文のうち、2018年4月以降に掲載された、ヒトを対象とした体系的レビュー論文のみを抽出することができます。

体系的レビューというのは、ランダム盲検テストなど信頼性の高い方法を採用している論文のみで構成されたレビュー論文です。医療のエビデンスとして利用される論文は、用いられたテスト方法の信頼性が高いほど医療決定に及ぼす影響が強いため、それらをまとめた体系的レビュー論文は医療的にかなり重要であるといえます。

以上の条件で論文を検索した結果、全部で204件の論文が出力されました(2020年3月17日に検索)。この中から、上位10件の論文の中身を確認し、おおまかな内容を表にまとめました。

 

PMID 内容
32078523 椎間板ヘルニアによる慢性腰痛の症例レビューに基づいた、新規の患者に対する作業療法介入の成功例
31860946 前立腺がんの疼痛に対する薬物療法の有効性・安全性のメタ分析
31814714 体系的レビューの文献調査による、根治的前立腺摘除術後の尿失禁に対する骨盤底筋トレーニングの有効性評価
31752149 認知症の有無が口腔衛生に及ぼす影響を文献調査
31722884 大腸内視鏡検査の検査間隔を決定するための、内視鏡検査と大腸がん有病率の文献調査
31695349 アルツハイマー認知症患者に対する虐待行為の調査と防止策の検討
31690308 多発性疾患の発生を感知し適切なサービスへ繋げることができているかを調査
31676005 認知症の介護者に対するe-ラーニング教育の活用例の調査
31635264 腸内細菌叢から産生される短鎖脂肪酸と肥満の関係性を調査
31627427 加齢に伴うサルコペニア(筋肉喪失)に対するロイシン補充の有効性調査

 

ここから、課題が達成できたかどうかを評価します。

今回は、論文の形式を「体系的レビュー論文」に指定したため、ほとんどの論文で文献調査が行われていました。一部、「体系的レビュー論文を利用した」論文が混在していましたが、ほぼほぼ体系的レビュー論文であったことに疑いの余地はないでしょう。

 

ただし、キーワードが「aging」としか入力しなかったため、扱われる内容が多岐に渡ってしまいました。認知症やがんなど、ほとんどが高齢者の疾患に関する内容であり、老化現象そのものを対象にしていた論文は一つも存在しませんでした。

このことから、キーワード選択が非常に重要であるといえるでしょう。今後は、老化の教科書などを確認して、流行キーワードを同時並行で学んでいく必要があるかもしれません。キーワードを適切に選ぶことができれば、あとはPubMedが最適なレビュー論文を探し出してくれると思います。

 

課題2 川島隆太教授の全論文を探す

f:id:emoriiin979:20200412232633p:plain

論文を探す方法も必要な能力なのです

 

研究室探しなどで、特定の研究者の論文を照会したいことがあるかと思います。その際に、PubMedを使って著者名で論文を探す方法を試してみます。

川島隆太教授は「脳トレ」で有名な科学者です。東北大学で加齢医学の研究を行っており、これまで数多くの論文を執筆してきました。今回はPubMedケーススタディとして、分かりやすい経歴を持つ人物を採用したかったので、有名人でかつ老化の研究を広く行っている川島教授を検索の対象としました。

 

著者の検索には、Advanced Searchを利用するのが一番簡単だと思います。PubMedトップページの「Advanced」から利用することができます。

 

f:id:emoriiin979:20200402230310p:plain

Advanced Research。ANDをクリックすることで条件を確定します。

 

初期では「All Fields」が選択されていますが、こちらを「Author」に変更すれば、著者名で検索することができます。著者名(Author)を「Kawashima Ryuta」と入力し、ついでに所属(Affiliation)を「Tohoku」と指定しておけば、「東北大学川島隆太教授」を抽出できる可能性が上昇します。

 

検索してみた結果、298件の論文が出力されました。この検索結果が本当に川島隆太教授の論文なのかを調べなければなりません。すべてを調べるのは困難であるため、上位10件の論文のみ確認を行いました。

上位10件の論文は、いずれも著者に「Ryuta Kawashima」が含まれており、所属機関は「Tohoku University」となっていました。東北大学川島隆太教授と同姓同名の人間がいない限り、この著者は川島教授本人であるといえます。

上位10件全てが川島教授の論文だったので、他の288件も大多数が川島教授の論文であると思われます。このように、Advanced Searchを使えば特定の研究者の論文を検索することができます。この課題は大成功であるといえるでしょう。

 

課題3 被引用数が多い論文だけを選択する

f:id:emoriiin979:20200412232852p:plain

全ての論文は読みたくない、せっかちなあなたへ

 

課題2で見つけてきた川島教授の論文は、全部で298報ありました。これら全てを読むのは、はっきり言って現実的ではありません。他の研究室を調べる時間も考慮すると、できれば重要そうな論文だけを選んで読みたいものです。

論文の重要度を図る指標として、論文の「被引用数」が使えそうです。これは他の論文に引用された数を表します。論文で報告される研究は、一般的には数多の先行研究の知見に基づいて計画されます。つまり、被引用数が多い論文は、それだけ他の研究員が自分の研究に必要であると判断されたということです。被引用数は他の研究員からの支持率ともいえるでしょう。

 

さて、被引用数の調べ方については、私が知る限りではPubMedで調べることはできませんでした。したがって、外部サービスを用いて、川島隆太教授の298報の論文の被引用数を調べなければなりません。

今回は、被引用数を調べるために、Semantic ScholarのAPI[2]を利用しました。APIには、PubMed検索結果のPMIDを入力します。ただし、PMIDのみを出力する機能はブラウザ版PubMedにはなさそうなので、BioPythonを利用してPMIDのみを取得します。 

    In[1]:
    !pip install biopython
    In[2]:
    from Bio import Entrez
    from time import sleep

メールアドレスを登録しないとBioPythonが実行できないようなので、自分のメールアドレスを入力します。

    In[3]:
    Entrez.email = "自分のメールアドレス"

まずは、BioPythonで川島隆太教授の論文を検索します。

    In[4]:
    term = "Kawashima Ryuta[Author] AND Tohoku[Affiliation]"
    handle = Entrez.esearch(db="pubmed", term=term, retmax=300)
    record = Entrez.read(handle)
    IdList = record["IdList"]

変数IdListには、PubMedの出力結果である論文のPMIDが格納されます。課題2より川島隆太教授の論文は298件見つかりますが、BioPythonでも同じ数の論文が出力されているのを確認できます。

    In[5]:
    print(len(IdList))
    Out[5]:
    298

次に、Semantic ScholarのAPIに、これらのPMIDを入力します。APIの結果の中から引用論文のリスト(citations)を抽出します。citationsの数が被引用数となります。

    In[6]:
    import requests
    num_cites = []
    for id in IdList:
        url = "https://api.semanticscholar.org/v1/paper/PMID:" + id
        result = requests.get(url).json()
        num_cites.append(len(result["citations"])

 変数num_citesには、各論文ごとの被引用数が格納されます。Pandasを使えば、論文PMIDと被引用数を対応付けたデータフレームが作成できます。被引用数が上位10件の論文を選択し、それぞれの内容を下表にまとめてみました。

 

PMID 内容
20203189 ワーキングメモリに影響を与える「白質の統合性」がトレーニングによって変化するかどうかを調査
18223623 BMI(肥満度)と脳灰白質量の相関関係の調査
22253758 脳トレゲームが高齢者の認知機能に与える影響を評価
14980557 fMRIの血中酸素レベル依存型応答(BOLD応答)から血行力学パラメータを求めるためのモデル式の改良
21111830 ワーキングメモリの非活性化による拡散的思考と創造性向上の関係性をfMRIで調査
20226253 脳内の局所的な灰白質量が創造性テストの結果に与える影響をVBMで調査
15588605 自分の顔を認識するために活性化される脳の部位をfMRIで調査
20171286 脳内の局所的な白質統合性(構造的接続性)と創造力の関係性をDTIで調査
21886781 ワーキングメモリのトレーニングが脳内の灰白質量に与える影響をVBMで調査
14741309 簡単な暗算で活性化される脳部位を子供と大人で比較

 

川島教授が関与する論文では、総じてfMRIなどの脳イメージング技術が必ず出現しました。想像力テストや計算問題などの課題を被験者に与えて、その時の脳シグナルをfMRI、VBM、DTIで測定するというのがほとんどでした。

このように、重要な論文だけを読むだけでも、その研究者のある程度の傾向は読み取れるようです。ただし、被引用数が多い論文は比較的古いものが多いため、最近の研究室事情を反映していない可能性はあります。ですので、直近の論文も読み比べることで、より正確な研究内容を把握できるでしょう。

 

調査を終えて...

f:id:emoriiin979:20200412233120p:plain

様々な媒体を活用するのが大切かも

 

いくつかの課題では若干の問題が残ったものの、PubMedの機能には特に不満を感じませんでした。課題3のときのように外部サービスを併用すれば、不可能なことはほぼ無くなるのではないかと考えています。

ただし、PubMedだけに頼らず、他の文献検索サービスも併用すべき時もあるかもしれません。課題1のように、検索キーワードの検討のために入門書を読まなければならないこともあります。また、PubMedでは数学・統計の論文が希少であるため、arXivなどで探す必要が出てくるでしょう。このようにPubMedも万能ではなさそうですが、少なくとも医学論文の検索に関しては、PubMedの利用を続けようかと思います。

 

参考文献

 

[1] 筑波大学大塚図書館(2019年)『医学論文の探し方(医中会・PubMed)』

http://www.tulips.tsukuba.ac.jp/lib/sites/default/files/attach/2019-OTSUKA_ichushi_PubMed.pdf

 

[2] fukuの犬小屋(2019年)『論文のメタデータを収集するならSemantic Scholar API

https://roy29fuku.com/natural-language-processing/paper-analysis/semantic-scholar-api/