Research at ICSWS

by Daisuke Ikeda on 2015-06-14(日) // Posted in Research

九州大学 国際宇宙天気科学・教育センターでの研究

データ科学的アプローチ:オーロラの予測を目指して

背景

九州大学 宙空環境研究センター(現 国際宇宙天気科学・教育センター)の兼任教員なったのと同時期に、当時のセンター長(湯元先生)の研究室の学生だった徳永さん(当時理学部地球惑星科学科D1、現九工大情報工学部准教授)が私の授業を受けにきて、これをきっかけに科学データを扱い、機械学習やデータマイニング等といった情報学分野の手法を用いた共同研究を始めました。このようなアプローチはデータ科学(data-intensive science, data-centric science)等と呼ばれています。

オーロラサブストーム(オーロラ爆発)の予測に向けて

センターにはMAGDASプロジェクトというのもがあり、全地球的な地球磁場の観測網を築いています。このデータを用いて、今まで、主にオーロラ(特にオーロラサブストーム)の予測と、オーロラ画像の自動分類を行っています。前者は、時系列データ解析のアプローチで、後者は後々機械学習のアプローチをとる時に必要になる訓練データを自動的に作れるよう、いわば準備的な研究です。

前者として、特異スペクトル解析法(singular spectrum analysis)を拡張して、前兆現象の開始時間を予想しようとするもの(論文国際会議発表)、時系列データの変換点検出を応用してオーロラサブストームの前兆を検出する手法を発表してきました。

後者の画像分類について、オーロラは定まった形もなく、薄く画像の特徴量が抽出しにくいかと予想していましたが、標準的な局所特徴量とHSVカラーモデルを用いて、8割程度の精度で分類ができました(国際会議発表論文)。精度向上はもちろん、現在静止画のみ使っているものから動画を使ったものに拡張する、オーロラサブストームも抽出できるようにする、などの課題があります。

データのインフラへ

研究室の学生や私にとって、超高層大気分野は未知の分野で必要なデータを探すだけでも一苦労でした。実際、ある種類のデータを探している時に、1時間平均のデータしか得られず、それで実験をしていたら、後で専門家に、「ここに1分ごとのデータ」がありますよというようなこともありました。このような経験から、分野外の人間にも使いやすいデータのプラットフォームが必要だと改めて感じました。

もともと、機関リポジトリの研究をしており、この延長でオープンデータについても興味を持っていました。オープンデータや、これを利用した、オープンサイエンスは今後ますます重要になってくると思われます。実際、2013 年のG8サミットでの“Open Data Charter″が採択されたり、欧州議会の“Open Scientific Research Data″、NFSの“Data Sharing Policy″のようにデータのオープン化の取り組みが政府系組織や助成団体によって進められています。国内でもオープンサイエンスの取組に関する検討委員会(日本学術会議)、国際的動向を踏まえたオープンサイエンスに関する検討会(内閣府)の取り組みが始まりまっています。

いままでも、分野ごとのデータ基盤は整備されてきました。例えば、上述のオーロラに関したデータでは超高層大気長期変動の全球地上ネットワーク観測・研究がありますが、読める論文と異なりデータの意味が分からない一般の人には利用は難しいでしょう。逆に、機関リポジトリを拡張してデータリポジトリとする取り組みもありますが、こちらはデータの一般的なメタデータ(取得日やファイルサイズ等)しかなく、データが十分に記述できていません。

これまでの研究(国際会議発表など)や佐藤先生の研究(Researchmapのサイトはてなのサイト)から、論文に一般の人がアクセスしているという強い状況証拠が得られています。もともと、病気などの場合にはこの動きはあったと思われますが、例えば、放射線の人体に対する影響など、マスメディアで報道されることや政府・自治体の公式な発表だけでなく、自分で調べたいという動きが広がっているのではないかと思います。

このような動きの延長上には、一般の人、別の分野の研究者等から、データへのアクセスと簡単な解析や予測への要求があると考えています。