ボーン・デジタルの情報学

第5回:CiNiiの挑戦

大向一輝(国立情報学研究所准教授)2010年04月15日号

 twitterでつぶやく 

 研究者間の知識流通を担う学術論文は、デジタル化によってその姿を大きく変え、研究者個人だけでなく学会・図書館・出版社などの組織のあり方にまで影響を及ぼしている。  これらは、学術というある意味閉ざされた世界の出来事にすぎないものの、一般社会との関係が厳しく問われるなか、社会にとって意義のある活動として認められるよう、デジタル化された学術情報を活用しようという動きが始まっている。  今回は、筆者が設計・構築・運営に関わっている論文情報ナビゲータ「CiNii(サイニィ)」を通じて、学術情報サービスの変化とその展望について論じていく。

アーカイブとしてのCiNii

 CiNiiは、国立情報学研究所が提供する、国内の学術論文を対象とした情報サービスである。国立情報学研究所は、その前身である学術情報センターの時代から、約300の学会、800近い大学と連携して論文を電子化=スキャンしてきた。スキャンされた論文は画像ファイルとして保存され、OCRを通したテキスト化はなされていないが、こうして作成された論文PDFファイルの総数は約300万と、国内最大の規模になっている。
 これらの論文のタイトルや著者名、抄録といった書誌情報は、別途人手によってデジタルデータとして入力され、データベースに格納されている。これに加え、国立国会図書館の雑誌記事索引データベース、科学技術振興機構の電子ジャーナル公開システムJ-STAGE、科学技術分野の論文が電子化されたJournal@rchiveとの連携により、合計1,200万を超える書誌情報が格納されている。
 このように、CiNiiはボーン・デジタルを前提としたアーカイブではないが、日本で生み出された知見を着実に電子化し、保存するための仕組みと外部連携のワークフローを持っている。また、近年では前回紹介した機関リポジトリが扱う書誌情報などを加え、より網羅性の高いデータベースを目指している。


1──論文情報ナビゲータCiNii(サイニィ)
URL=http://ci.nii.ac.jp/

サービスとしてのCiNii

 デジタルアーカイブは資料の保存とともに利用を促進する役割をはたしているが、CiNiiも例外ではない。CiNiiでは約1,200万論文に関する書誌情報の検索・表示機能を備えており、CiNiiあるいは他サービスでダウンロード可能な論文については、検索結果にリンクを表示することで、本文入手の支援を行なっている。
 また、国立情報学研究所において別途構築を行なっている引用文献索引データベースに基づき、論文の引用・被引用関係を表示することができる。
 国立情報学研究所で電子化された約300万論文については、CiNii上で入手することが可能である。論文の提供元である学会の運営モデルに合わせて、誰でも無料でダウンロードできるもの、大学・研究機関が契約している場合にのみ無料のもの、つねに有料のものなど、さまざまな条件の論文が混在している。

 2005年にサービスを開始して以来、CiNiiは研究者や学生にとってなくてはならないデータベースのひとつとして認識されてきた。一方で、一般ユーザにとっては知名度が低く、利用率は極めて低いままであった。これは、CiNiiが専門的なサービスであることもさることながら、従来は書誌情報が大学・研究機関内でなければ閲覧できないというクローズドなシステムになっていたことが大きな理由であると思われる。
 一般社会に対する学術情報の普及は、情報の自由な流通を促進するためという意味合いのほか、研究費の主たる財源が税金であり、その説明責任という観点でも非常に重要である。そこで、CiNiiでは2007年・2009年の2度にわたって大規模なリニューアルを行ない、一般ユーザに向けた施策を行なった。
 まず、書誌情報の閲覧に関する制限を撤廃し、誰でもアクセスできるようにするとともに、GoogleやYahoo!といった一般的な検索エンジンが書誌情報を検索対象とすることを許可した。これによって、多数の論文がウェブ上で可視化され、一般ユーザが情報を検索する際に論文の存在に気づくことに貢献した。
 この結果、アクセス数や論文ファイルのダウンロード数は前年度と比較して3倍〜10倍に増加した。また、定期的なアンケートの結果から、一般ユーザからの利用が大幅に増加したことが確認された。もちろん、一般のユーザが論文を読む機会はあまり多くはないものの、特定の分野の専門家を調べるために論文の著者名を検索するなど、新たな利用方法が広まりつつある。
 このようなサービスの開放にともない、予想外の影響もあった。大量のアクセスのためにシステムの処理能力が追いつかない現象や、検索エンジンを通じてアクセスしたユーザにとって、画面の構成やインターフェイスがあまりに専門的であったため、サービス内容を理解できずに直帰してしまう現象が多発した。こうした問題に対処するため、CiNiiではハードウェア・ソフトウェアの構成やユーザインターフェイスを一新したシステムを2009年4月から公開している。

 2度のリニューアルを経て、CiNiiの利用率は図2に示すように非連続的に上昇している。これは、先に述べたように一般ユーザに対する施策が功を奏したことと、そして専門家にとっても利用しやすい環境を提供できたことが主因であると思われる。研究者は未知の領域を探索することが生業であり、そのための調査は試行錯誤の連続である。よりよいサービスによって探索のプロセスを支援することができれば、結果として得られる知見のクオリティも向上する。今後も、CiNiiは学術情報流通の一翼を担えるよう、サービス品質の向上を進めていく予定である。


2──CiNiiのアクセス数・ダウンロード数

データプロバイダーとしてのCiNii

 ここ数年のウェブ環境の激変のなかでも、情報のオープン化のインパクトは非常に大きい。ここでのオープン化とは、単なる情報公開ではなく、他のサービスやアプリケーションが利用しやすいように開発者用に構造化されたデータの配信を意味している。
 いわゆるマッシュアップと呼ばれる複数サービスの組み合わせや、データマイニングによる知識抽出のために、構造化データによる情報のオープン化はデジタルアーカイブの必須要件となりつつある。
 CiNiiでは2009年4月のリニューアルにおいて、検索結果・書誌情報を構造化データで配信するウェブAPIの提供を始めた。これらのデータはXMLで記述されており、プログラムによる自動処理に適している。また、ウェブAPIの利用促進のためにコンテストを開催し、広く利用事例を集める試みを行なった。応募作品のなかには、特定の著者やキーワードに関する論文を時系列で可視化する新たなインターフェイスの提案や、既存の図書館システムと組み合わせた論文紹介システムなど、論文情報の新たな応用の可能性が感じられるものが多数見られた。

 2010年4月からは、著者検索という新たな機能の提供を行なっている。この著者検索は、CiNiiが保持する論文に含まれるすべての著者にIDを付加し、IDに基づく論文リストを表示する機能である。
 元来、CiNiiのデータベースには800万を超える著者名が格納されているが、その氏名は文字列として格納されているために、同姓同名の人物を区別することができない。この問題を解決するためには、著者にIDを付加する必要があるが、もはや人手でこれを実現することは難しい。
 そこで、コンピュータによる自動処理を用いて同一人物かどうかを推測し、IDを付加するとともに、生じたエラーについてはユーザからのフィードバックを得て修正するというアプローチを取っている。
 これまで、学会や図書館、出版社といった組織によって人手で信頼性の高いデータをつくってきた学術情報サービスに対して、コンピュータやユーザを参加させることについては議論の余地がある。しかしながら、IDのようなデジタルアーカイブに「隠された」データを利用可能なものにするためのひとつの試みとして、運用を行なっていく予定である。

 情報爆発と呼ばれるこの時代にあって、学術情報は誰がどのようにつくり、維持していくのか。現在、さまざまなプレイヤーが主導権を握るために鎬を削っている状況である。次回はいまなにが起こっているのかを紹介しながら、学術情報の本質とはなにか、ボーン・デジタルの本質はなにかについて議論したい。

▲ページの先頭へ

大向一輝

1977年京都生まれ。国立情報学研究所准教授。博士(情報学)。2005年総合研究大学院大学博士課程修了。セマンティックウェブやソーシャルメデ...

2010年04月15日号の
ボーン・デジタルの情報学

  • 第5回:CiNiiの挑戦