未来のいつか/hyoshiokの日記

hyoshiokの日々思うことをあれやこれや

論文100本ノック #東京大学生日記

研究者の卵なので論文をいっぱい読まないといけない。
闇雲に読みまくるとしてもざっくり数量的な目標を持っているといいかもしれないと思い勝手に一人で100本ノックをすることにした。
読んだ論文を紹介するという趣旨の輪講という授業があって、その順番が先日回ってきた。準備をどのようにするか、何の論文を読むか、どのようにまとめるか皆目見当がつかない。
そんなこんなで昨年末ごろから論文を集めて目を通すことにした。今日はそのお話。
紹介する論文は大学院の入試の時に調べた論文を中心に調査することにした。

論文の検索は大学の論文検索システムやGoogle Scholarを使う。
https://scholar.google.co.jp

図書の検索はOPACやカーリルを使う。
https://calil.jp

ある分野を網羅的に俯瞰したい場合は定番の教科書を読むのが一番なのだけどその分野の初学者だとそもそもどれが定番の教科書なのかわからないということがあったり、まるっきり新しい分野だと定番の教科書が存在していない可能性がある。その場合はその分野の専門家に聞けばいい。大学はその分野の専門家がいるので(それを仕事にしているので)、オススメの教科書などを聞いちゃったりする。

コンピュータサイエンスの分野であれば重要な論文は全てオンラインで検索可能なのでGoogle Scholarでざっと関連分野を調べて深掘りしていく。いわゆる人文科学、社会科学系の先行調査はどうやっているのだろうか。図書館を利用するという意味では最初のとっかかりはそれほど違わないのだろうか。

研究者の卵(まだ孵化していない)とはいうもののコンピュータアーキテクチャの定番の教科書は「Computer Architecture, Sixth Edition: A Quantitative Approach (The Morgan Kaufmann Series in Computer Architecture and Design)」というようなことは知っている。第1版の頃からの愛読書だ。

先日ACMIEEE Computer Societyの学生会員にもなったのでそれぞれのDigital Libraryにもアクセスできる。*1

例えば下記の論文を検索してみる。
https://scholar.google.co.jp/scholar?hl=en&as_sdt=0%2C5&q=Staring+into+the+Abyss%3A+An+Evaluation+of+Concurrency+Control+with+One+Thousand+Cores&btnG=

2014年の頃の論文だ。クリックするとACM Digital Libraryにアクセスできる。(会員じゃないとアクセスできないかもしれないけど。)

論文の書誌情報、概要、引用文献(References)、被引用(Cited By)がわかるほかアクセス権があれば全文(PDF)をダウンロードできる。ここまで一切図書館とか行かないでネットだけでできる。自宅からでもスタバからでも大学の図書館からでも、世界中ネットさえあればどこからでもできる。

引用文献もACM関連の論文であればリンクが貼ってあるのでクリックするだけだ。例としてあげた論文は44件の論文を引用していたが、そのうち33件はそのままリンクを辿れば引用文献にたどり着く。その他の引用文献は自分でタイトルをコピペしてGoogle Scholarに突っ込めば検索できる。書籍からの引用に関してはそれにあたる必要はある。

小一時間もクリックしているだけで最初の論文が引用していた論文の8割程度は収集できる。

さらにこの論文を引用している論文も検索できる。この論文を引用しているわけだから、当該論文以降に発表された研究になる(当たり前だけど)。その後の研究動向の流れを理解することができる。

当該論文が重要な論文であれば、多くの論文に引用されて、豊かな水脈を形作るので、被引用数というのは論文の価値をはかる上で重要なファクターになる。インパクトファクターとも呼ばれる。

この論文では43件表示されていてその全てがクリック可能になっている。Google Scholarでは112件と出ている。

この論文を引用している論文のタイトル、概要などを見て興味深いものについては同様にアクセスして収集する。

例えば40本の論文がクリックするだけで収集できるのだけど、自分が学生の頃であれば、図書館にこもって当該論文が掲載されている論文誌を見つけてコピーをとってという作業を延々と繰り返す必要があって、1週間くらいは平気でかかる。被引用論文の場合はさらに手間がかかってCitation Indexという辞書みたいな論文の被引用索引を手繰っていく。重要な論文誌に掲載されていない論文だとCitation Indexに掲載されていないので、そのような論文は発見できないので、論文調査の抜け漏れが発生する。

論文収集の時間的コストは1週間から1〜2時間に劇的に短縮された。すごい。

それはそれですごいのだけど、論文を読む速度とそれを理解する速度はほとんと変化がないので(下手をすると遅くなっている部分もあるかもしれない)、その集めた論文を4週間くらいかけて読むことになる。

論文を読んでいるうちにさらに関連論文に手を出して言って集めるだけはどんどん集まっていく。

そんなこんなの収集フェーズがこの1月である。

その膨大な論文の山の中から輪講で紹介する論文を決めて資料を作成する。

パワポと論文(8ページ)を作ることになる。発表の1週間前にパワポを研究室の人に見てもらってコメントをもらう。

まとめ方も方向もいいのか悪いのかわからないし、どのようなプロセスでそれをやるのか研究科の流儀もわからないので、どのくらいの手間暇、時間がかかるか見積もりができない。いたずらに時間ばっかりがかかる。会社の仕事ならばだいたいこのくらいの時間でこのくらいのことができるかなあというざっくりの見積もりができるけど最初の作業なのでしょうがない。

調査論文はLaTexで作る。MacLaTex環境をインストールした。雛形は研究室の修士の学生さんからもらった。

引用論文はBibTex形式なのだが、当初論文を収集していた時にBibTexも集めていなかったということに1週間くらい前に気がつく。というかTexで論文書かなきゃその必要性もわからない。

ACM Digital LibraryのページにはちゃんとBibTexをダウンロードするボタンがついているのでそれをクリックするだけである。Google Scholarでも同様に書誌情報をゲットできる。

論文数が100本くらいであれば、論文管理ツールなどを使わなくてもどうにかできるがこれからはそれの利用が必要になってくる。学生さんに聞いたところ、エクセルで管理していますとか、Scrapboxですとか色々とあるみたいだ。先日RefWorksというのを教えてもらったのでちょっと試してみたい。

あれやこれやでこの一月で257本ほど論文など、BibTexは75個ほどゲットした。毎日毎日理解できてもできなくても少しづつ論文(博士論文も含めて)を読んでいく。

最低でも月に100本は論文を読む。論文100本ノックである。

*1:日本の学会には(まだ)所属していない。