ニューラルネットワークの過学習

- Overlearning of artificial neural network -

けんきゅうの研究所 Research Lab.:ニューラルネットワークの過学習

機械に何かを覚えさせる技術のことを機械学習と言います。過学習というのは、何かを機械に覚えさせたときに、過剰に学習させてしまい、本来学習して欲しくないことまで機械が学習した状態を指します。ここで言うニューラルネットワークというのは、人間の脳が多数の脳細胞が互いにつながってネットワークを形成して物事を記憶する様を、コンピュータで再現することで機械に何かを覚えさせたりする技術です。ニューラルネットワークに覚えさせたい内容を入力と出力のペアとして準備し、学習させることで、入力のみを与えれば正しい答えを出力させることができます。

 

IBMのWatsonというAIが、クイズの世界チャンピオンに勝利したというニュースを知っていますか。IBMの研究者が、深層学習という最新のニューラルネットワーク技術を使ってWatsonに様々なことを覚えさせた結果、世界チャンピオンでも正解できなかった問題についてもWatsonは正しく解答できたのです。いずれにせよ、1990年代には、ニューラルネットワークに何かを覚えさせようとすると余計なことまで学習する過学習が、大きな技術的課題と考えられ、多くの研究者が取り組んでいました。

 

「余計なことまで学習する」というのは、どういうことでしょうか。例えば、実験結果をニューラルネットワークに学習させたい場合、実験の条件を入力、実験の結果を出力と考えます。実験の結果にはたいてい誤差が含まれます。今日と明日で同じ実験をした場合であっても、例えば気温や湿度が異なることで、微妙に実験の環境が異なるので、実験の結果は完全に同じにはなりません。このように実験毎に微妙に異なる部分を誤差として人間は扱うことができるのですが、ニューラルネットワークの場合は何も考えずに学習させると、誤差まで学習してしまいます。誤差まで学習するのは、余計なことです。

 

ポンさんは1990年代に大学で研究を行っていましたが、自らの研究のために、ニューラルネットワーク技術を使ってみようと考えました。その時に、過学習という問題が存在することを知り、解決方法を探しました。まず、日本語の書物を調べましたが、「過学習という難しい問題が存在する」ということのみが記載されているものがほとんどで、解決方法は見当たりませんでした。英文の書物まで検索範囲を広げて行き着いたのが文献(1)(2)です。記載内容を理解するため、ベイズ統計を独学し、行列の演算を再学習し、何回も何回もこの論文を読むことでようやく理解できました。この論文に記載されている数式をプログラミングし、コンピュータで使用する際に上手く計算できる方法を見つけたので、その方法を含めた論文(3)(4)をポンさんは執筆しています。

 

ポンさんの論文はMackayさんの原論文があったから執筆できたものなので、ポンさんの論文はそんなに大したものではありません。原論文を執筆したMackayさんには頭が下がります。ポンさんがちょっとした数式の改良で論文を執筆した目的は、自身の研究成果の発表のためというより、むしろ、「もう過学習の問題は解決してますよ」と日本人の研究者に伝えたかった、というところです。もちろん、解決済みと認識していた日本人の研究者は沢山いたと思いますが、認識していない研究者も沢山いたのです。現在でもまだ解決済みと認識していない人がいるかもしれません。何故なら、2000、2010年代になっても、「過学習という難しい問題があります」という発言をする研究者にポンさんは何回か遭遇したので。

 

  1. Mackay D. J. C., Bayesian Interpolation, Neural Computation, 4, (1992), p.415
  2. Mackay D. J. C., A Practical Bayesian Framework for Backpropagation, Neural Computation, 4, (1992). p.448
  3. 竹田憲生,ベイズ推論を利用した学習したニューラルネットワークによる応答局面とその最適化問題への適用,日本機械学会論文集 A編,73巻,733号(2007),p.1079-1086
  4. Norio TAKEDA, Response Surfaces of Neural Networks Learned using Bayesian Framework and Its Application to Optimization Problems, Journal of Computational Science and Technology, Vol.3, No.1, (2009), pp. 315-326