今号の特集は数字で見るJPCOARです。
JPCOARの様々な数字をピックアップすることで、読者のみなさんにその意味を考えてもらえたらうれしいね、と企画しました。
なので、編集担当では数字についての分析や意味づけは行っていません。
とはいえ、特集に読みものがないのは寂しい、ということで、NIIの河合先生にデータ解析の初歩について解説していただきました。
このデータはあんな分析に使えるかも!?と考えながら読んでみてください。
国立情報学研究所 河合将志
国立情報学研究所オープンサイエンス基盤研究センターでは、JAIRO Cloudの開発だけではなく、機関リポジトリに関するデータ解析もおこなわれており、私はデータ解析を主に担当してきました。具体的には、機関リポジトリのコンテンツ数に対する図書館による諸施策の効果の推定や、コンテンツ利用に対する機関リポジトリの効果の推定などに従事してきました。また、得られたデータ解析の結果を、当センターのJAIRO Cloud開発チームやJPCOAR等の機関リポジトリコミュニティと共有することで、現状の改善にも取り組んできました。
こうした経験を踏まえ、本コラムでは、「データ解析の概要」「データ作成」「データ解析の例」それぞれについて、
データ解析にもとづく自機関のサービス改善に関心のある機関リポジトリ担当者の方々を読み手として念頭におき、説明した
いと思います。
データ解析の概要
データ解析をおこなうにあたっては、その目的に応じて、手法を選択する必要があります。さまざまな手法が存在しますが、それらは探索志向の手法と確認志向の手法に大別されます。探索志向の手法は概略の把握を可能にする手法であり、主成分分析、クラスター分析、多次元尺度法などが該当します。確認志向の手法は具体的な命題の検証を可能にする手法であり、回帰分析、パス解析、決定木などが該当します。データ解析の目的が、例えば、機関リポジトリ登録論文の特徴の理解である場合には、探索志向の手法を選択し、所属、分野、IFといった着目する点における登録論文と未登録論文の特徴の違いの同定である場合には、確認志向の手法を選択するといった使い分けが考えられます。
手法を選択した後は、解析ソフトを選択する必要があります。RやPythonは無償であり、手法の実行を容易にする関数群であるパッケージが充実しています。SPSSやSTATAは有償ですが、操作性に優れたユーザーインターフェイスをもっています。選択されることが多いであろう無償のRやPythonでは、コードの記述が求められますが、パッケージを利用することで、数行のコードのみでデータ解析をおこなうことができます。
データ作成
以上では、データはあるものとして、データ解析そのものの概要を説明しましたが、データ解析をおこなうためには、当然ながら、データ作成もおこなう必要があります。データ解析の目的が、上述の所属、分野、IFといった点における機関リポジトリ登録論文と未登録論文の特徴の違いの同定である場合には、登録、所属、分野、IFについてのメタデータの行列化がデータ作成として求められます。表1は行列化されたメタデータであり、表2はその意味です。一般に、データ解析に望ましいのは、行数が多く、欠損値が少ない行列です。こうした網羅性の高い行列を一朝一夕に作成することは難しいため、自機関においてデータ作成の仕組みを予め確立しておくことが円滑なデータ解析につながります。 表1:行列化されたメタデータ
Commenti