線形基底関数モデルの最適解

はじめに

前回、D次元の線形回帰モデルを解きました。

parco1021.hatenablog.com

話を1次元に戻します。線形回帰モデルを解くとイメージとしては下図のようになります。

f:id:Parco1021:20200206165132p:plain

$y=ax+b$ の形ですね。しかしこの分布を見ているとこのようにも見えると思います。

f:id:Parco1021:20200206165016p:plain

汚くてすみません！！

このように、直線よりも曲線を用いた方がより分布に合っています。基底関数を用いてこのような曲線の関数を導出することが線形基底関数モデルの考え方です。

基底関数

まず基底関数について説明します。読んで字の如く関数を表現するためのベース、つまり基底となる関数です。もっとざっくり言うとグニャグニャしている線(曲線)を基底関数を組み合わせて表現しよう！といった感じです。…？？？同じことを言ったような気がしますが次第にわかると思います。

ガウス基底

$Φ_j(x)=exp\left\{-\frac{(x-μ_j)^2}{2s^2}\right\}$

f:id:Parco1021:20200206171820p:plain

引用元:ガウス関数

ただのガウス関数(正規分布)ですね。 $s$ は分散のようなイメージでいいと思います。つまり大きくするとそれだけ広範囲に影響が出ます(=グラフの山が潰れて広がるイメージ)。広範囲に影響を及ぼすことはよろしくないので小さい方が望ましいと思います。小さすぎるのもアレだけど。。。 $μ_j$ はガウス関数の中心位置ですね(山のテッペンの位置)。 $s,μ_j$ ともに設計者が決めるパラメータで変数は当然 $x$ のみです。

多項式基底

$Φ_j(x)=x^j$

つまり $Φ(x)=1,x,x^2,x^3･･･$ となるわけです。こちらの方が馴染みがあるので扱いやすいかもしれません。

解いてみよう

まず、今回解く対象である線形基底関数モデルを明記します。

$y(x,\boldsymbol{w})=\sum_{j=0}^{M} w_jΦ_j(x)=\boldsymbol{w}^T\boldsymbol{Φ}(x)$

ここで、 $M$ は対象となるデータを何分割して基底関数を使うかを示しています。そして $w$ は重みを表しています。つまり、M=3であるとしたら対象のデータをx軸方向に3分割して分割したそれぞれに適した重みwを計算します。そして導出した最適な重みを先ほど述べた基底関数に掛けることで曲線を実現させます。当然分割した各々は干渉し合います。