【機械学習】正則化

機械学習のモデル構築を進めるうえで最も重要なポイントの一つが、いかにして最適なパラメータ(w)を見つけるか、ということです。今回は、その為の手法の1つである正則化について説明します。

正則化とは何か
1. 損失関数 + 正則化項
正則化項
1. パラメータλ
2. ノルムR(w)
  1. L1ノルム
  2. L2ノルム
Lasso回帰とRidge回帰
1. ユークリッド距離とマンハッタン距離との関連
  1. ユークリッド距離
  2. マンハッタン距離
2. L1正則化のスパース性
変数選択

正則化とは何か

正則化(regularization)というのは、適切な係数を取捨選択したり、係数の大きさを小さくすることによって過学習を防ぐ手法です。過学習については以下の記事を参照ください。

別の言い方をすれば、関係のなさそうな係数を捨てたり、係数の大きさを調整したりして、本当に重要な係数を見つけるようなイメージです。

係数が少なくなれば、モデルもより単純になります。5次関数・6次関数のような高次関数によるぐにゃぐにゃした無秩序なグラフよりも1次関数や2次関数の方が使えそう、、というのは直感的にも理解できるものかと思います。

正則化には後述するように様々な手法がありますので、精度がなかなか高くならない時はいろいろ試してみて、精度がより良くなるように目指しましょう。

なお、似た名前の正規化については、正則化とは全く異なりますので、注意してください。正規化については以下の記事を参照ください。

損失関数 + 正則化項

正則化では、損失関数にモデルの複雑さを示す正則化項を加えます。損失関数の記事では、平均二乗誤差について数式を使わずに説明をしましたが、今回は数式を全く使わないのは難しいので、以下の通り、平均二乗誤差の式を使います。

意味としては1番目からN番目までのデータについて、予測値(yp)と正解値(yt)の誤差を2乗した値をすべて足したもの(∑)を、データ数で割る(1/N)ことで平均を出しています。この平均二乗誤差が小さくなるように、重みパラメータｗを設定するのが機械学習です。詳細は以下の記事を参照ください。

この損失関数に、以下のように正則化項λR(w)を加えることで、正則化を実現します。

正則化項

正則化項λR(w)は、パラメータのλ(ラムダ)と、ノルムのR(w)部分に分かれます。それぞれ、意味を以下で説明します。

パラメータλ

損失関数に対してノルムをどのくらい反映させるかを決めるパラメータです。勾配降下法における学習率と同じようなイメージを持ってもらえるとわかりやすいでしょう。λを大きく設定すれば正則化項による損失関数の調整効果が大きくなり、λを小さくすればその逆となります。実際には、学習の進み具合を見ながらλを調整していきます。

なお、勾配降下法については以下の記事を参照ください。

ノルムR(w)

上項でR(w)と記したノルム(Norm)というのは、ベクトルの大きさの指標です。まずはそのイメージを掴んでみましょう。例えば重みパラメータが3つ存在する予測モデルを作るとして、今その重みが以下のように設定されているとします。

w₀＝　1
ｗ₁＝　5
ｗ₂＝　3

これをベクトルとして捉えると以下のように図示することができます。

数学的に表現すると、1,5,3という成分を有する3次元ベクトルです。このベクトルの大きさについて以下のようにL1ノルム、L2ノルムのような方法で大きさを測ります。

重みパラメータの値が大きい＝ベクトルが大きいとノルムR(w)も大きくなり、それが以下の損失関数において誤差を悪化させる要因になります。逆に言えば、重みパラメータの値が小さいほど、損失関数を改善することになります。

これをより直感的に理解するために、ｙ＝w₀ + w₁x₁ +w₂x₂といった表される線形回帰モデルの重みについて考えてみましょう。

重みパラメータ(w₀, w₁, w₂)の値が大きいと、以下の赤いグラフのように、線の傾きも大きくなります。結果的に、関数もより複雑になり、汎化性能(学習だけでなく汎用的に使える性能)が落ちてしまいます。

一方青いグラフは、赤いグラフと同じようにアップダウンは繰り返していますが、より汎用性が高まっていることが直感的にわかると思います。正則化項にノルムR(w)があることで、赤いグラフよりも青いグラフの方が高評価されるようになるのです。

これがノルムR(w)を正則化項に加える意味になります。それを踏まえて、具体的にL1ノルムとL2ノルムについて説明します。

L1ノルム

L1ノルムは、以下の通り、重みパラメータwの絶対値を合計します。

上で例示したようにw₀＝1、ｗ₁＝5、ｗ₂＝3という3つの重みがあるという前提で説明します。lwlの外側の線は”絶対値”という意味ですので、lwl_kというのはw_kの絶対値という意味です。∑によって、kは0から重みの数であるNから１を引いた数までを合計します。重みがw₀, w₁, w₂の3個であれば、N＝３、w₀, w₁, w₂の絶対値の合計、という意味です。上のケースでは、1+5+3でノルムは9になります。

L2ノルム

L2ノルムは、以下の通り、重みパラメータの2乗値を合計して平方根を取ります。

w₀＝1、ｗ₁＝5、ｗ₂＝3であれば、2乗和である1+25+9=35の平方根となり、√35、約5.9になります。

Lasso回帰とRidge回帰

上述のL1ノルムやL2ノルムを正則化項に加える具多的な手法が、Lasso回帰やRidge回帰と呼ばれる手法です。L1ノルムを使った正則化、つまりL1正則化を行うのがLasso回帰で、L2正則化を行うのがRidge回帰です。

Lasso回帰はL1ノルムを使っているため、重みパラメータの値が0の値である時に損失関数の値が小さくなります。重みパラメータの値が0ということは、その重みが掛かっている説明変数も0になります。

このことから、Lasso回帰は結果的にたくさんある説明変数を選択する役割を果たします。多すぎる説明変数を削減したい時に有用です。このように重みパラメータの値で0が多くなる性質のことを”疎”の英語表記を用いて”スパース性”と呼びます。

一方のRidge回帰はLasso回帰ほど重みパラメータを0にする作用はありませんので、説明変数の数は減らしたくないが、重みを調整することでなだらかで汎用性の高い予測モデルを生成したい時に有用です。

ユークリッド距離とマンハッタン距離との関連

ではなぜ、L1正則化にはスパース性があるのでしょうか。これを数学的に理解するには数式を大量に使う必要があり、それは著者の方向性と反してしまうため、ここでは直感的な理解を助けてくれるであろう、ユークリッド距離とマンハッタン距離の違いを説明します。

それぞれ、L1ノルムはマンハッタン距離、L2ノルムはユークリッド距離と関連付けて説明します。我々が日常使う”距離”という概念は、数学的には非退化性、対称性、三角不等式という3つの距離の公理を満たす概念であると明確に定義されています。ユークリッド距離とマンハッタン距離はその距離の公理を満たす距離の測定方法の具体例です。

ユークリッド距離とマンハッタン距離を説明するために、以下のような2軸上の2点の距離をどのように図るかを想定しましょう。以下の図を、(x, y)平面で理解してください。

ユークリッド距離

我々が数学の授業で習うのはユークリッド距離の方です。ユークリッド距離は以下のように計算できます。

もしこれだけ見てピンとこなければ、以下のピタゴラスの定理を思い出してください。2点間の距離を、直角三角形に見立てると、求めたいのは斜辺の長さに該当します。

計算すると、2点間の距離は5√2であることがわかります。√を外すと約7です。

このユークリッド距離の考え方だと、同じ距離は同心円状に広がります。以下の円の上であれば、どこも地点Aからの距離は変わらず、約７です。

2乗して求めることからもわかる通り、ユークリッド距離というのはL2ノルムに該当します。以下のユークリッド距離の計算式とL2ノルムの計算式を再度眺めてもらえれば想像できる通り、これらは同じことをしています。各軸方向(各重みパラメータ)の値を2乗して平方根を取ることで、ノルム(ベクトルの大きさ)を算出しています。

マンハッタン距離

続いてマンハッタン距離について説明します。マンハッタン距離は以下のように計算されます。

見慣れていないとイメージがしにくいかもしれませんが、全く難しくなく、我々が日常使う”みちのり”の概念と同じだと考えてください。ユークリッド距離は2点を直線で結んだ時の距離を求めましたが、以下のように地点A・Bを移動するのに縦方向と横方向にしか進めないようなケースであれば、マンハッタン距離で計算する方が実際に即しています。

マンハッタン距離で計算すると、5+5=10が2点間の距離になります。実際、マンハッタン距離という名前は、ニューヨークのマンハッタンが日本の京都と同じように碁盤の目のように縦横に整備された街並みをしていることに由来します。

ユークリッド距離では同じ距離は同心円状に広がりましたが、マンハッタン距離では以下の赤枠のように、菱形上に同じ距離が広がります。

絶対値を取ることからもわかる通り、マンハッタン距離というのはL1ノルムに該当します。以下のマンハッタン距離の計算式とL1ノルムの計算式を再度眺めてもらえれば想像できる通り、これらは同じことをしています。各軸方向(各重みパラメータ)の絶対値を取ることで、ノルム(ベクトルの大きさ)を算出しています。

L1正則化のスパース性

マンハッタン距離の説明の中で、マンハッタン距離＝L1ノルムは同じ距離(同じ値)が菱形上に広がると説明しました。これがL1正則化のスパース性につながります。

上では2点間の距離で説明しましたが、それを重みパラメータにすり替えてみましょう。以下のようにパラメータがw₀/w₁の2つしかないことを想定してください。赤い菱形はL1ノルムの大きさ、つまりマンハッタン距離が同じであるため、L1正則化であるLasso回帰の正則化項において、赤い菱形上の点は全て損失関数に同じ影響を与えます。言い換えると、モデルの良し悪しに影響する評価が同じということです。