ひとりで学べる 実践Rケモ・マテリアル・データサイエンス 〜付録Rスクリプト付き〜
= 刊行にあたって =
 第1のパラダイムでは「仮説検定」の発想で経験科学が進展した。そして、ニュートンの法則に代表される第2のパラダイムでは、定量性を考慮した理論科学、計算機の発明により第3のパラダイムとして複雑な現象をシミュレーションに再現する科学へ、そして、現在、第4のパラダイム、として豊富なデータを活用したビッグ・データ・サイエンスが生まれた。ここでは、さらに社会実装も考慮されるようになった。一方、2012年、ハーバード・ビジネス・レビュー誌がデータサイエンスを「21世紀で最もカッコいい仕事」と位置づけたことから、注目を集めるようになった。では、これを具体的に化学・マテリアル科学の領域で進めるにはどうしたいいだろうか。実践として必要とされることは、ターゲットとする分野の知識、プログラミングとして必要とされるデータ解析技術としては、データの収集、機械学習と解析結果の評価法(統計学)である。いままで、これらは地道に情報科学の各分野が基盤技術を確立してきた。しかし、オープンサイエンスの時代になり、これらのプログラムおよびデータについてもデータベースとして公開されるようになってきた。ではユーザーとしてこれらのプログラムとデータを活用し、新たな知見を獲得し、さらに社会実装することを目指すことになる。社会実装というと大げさに聞こえるが、企業であれば新たな製品を開発するということへつなげることであり、結局のところ、いま世の中に定着し始めたSustainable Development Goals(SDGs)に向けた取り組みということへ帰着する。

 本書では、このような背景を考慮しながらも、まず「機械学習、統計学をいかに実践的に習得するか?」に焦点を当て、化学・マテリアル科学の具体的データを取り入れ、R言語におけるプログラム例(約75スクリプト)をもとに解説した。R言語にはさまざま解析用途に応じたパッケージが公開されている。そこで、本書では、<1.データの入力>、ファイルからのデータを入力、<2.データの整形>、目的に応じて入力データから必要な項目の抽出、<3.データ解析>、抽出されたデータを目的にあった関数・パッケージ(統計、多変量解析、機械学習などの関数)に入力し、解析結果を得る。<4.解析結果の表示・出力>解析結果をもとにグラフに表示する、あるいは、ファイルへ出力する。という4つのステップに沿って、Rスクリプトを作成することを説明した。特に、データの整形について本書全体を通して説明を加えた。また、さまざまなパッケージの活用法も習得できるように配慮した。エディタRStudio、Rのインストール、プログラミングの基礎、化学構造からの特徴表現(分子記述子)による多変量データ解析(機械学習により回帰モデル、分類モデル)、妥当性・汎化性能評価という一連の流れを、ひとりでも学べるように本テキスト「(ひとりで学べる)実践Rケモ・マテリアル・データサイエンス〜付録Rスクリプト付き〜」を作成した。また、潟Vーエムシー・リサーチでは、講習会も企画しているそうであるので、これもご活用いただくと、さらに理解が深まり実践的活用への自信もつくと思う。

金谷 重彦
ひとりで学べる 実践Rケモ・マテリアル・データサイエンス
〜付録Rスクリプト付き〜
Copyright (C) 2021 NTS Inc. All right reserved.