Cheese beef bowl and Curse of dimensionality
こんにちは。100年ぶりです。
今回はタイトルのようにチーズ牛丼と次元の呪いについて書きます。
チー牛といえばTwitter世界では超有名な絵となりましたね。
それと次元の呪いっていう某界隈では最近奇しくもHotになった話題です。著者の人がまじで可哀想です。早く記事書いた会社は何かした方がいいと思う。
結局のところアチチな話題同士を結び付ければ私の書く意欲も掻き立てられるのではと思って書いてます。もう飽きてます。
結論を申し上げると、チー牛の絵ってハブ現象から考えると陰キャ顔クラスタのセントロイドを捉えた絵で注目すべき特徴量の選択が素晴らしいかも?、みたいな話。
オチがないことに気づいたので読むのはやめてください。知的好奇心がある人だけどうぞ。
思いつきなので雑なのは許して。あと本当に気にしてる人もいるとも思うからあんま人に使うなよ。
チー牛
これはもう教える必要性がないと思うけど、陰キャの特徴をつかんだ絵、ということで通ってると思います。
知らない人はググると一発で出てきます。
次元の呪い
これは数学スタートだと思うんだけど、私は機械学習とかの方しかわからないのでそっちで説明します。
ググって一発で出てくるのは、特徴量が増えると訓練に必要なデータ数が指数的に増加する、という感じで出てきます。
サクサクメロンパン問題とかも次元の呪いの一種です(個人的には球面集中現象も次元の呪いの一種って考え方なので包含関係だと思ってるんですけどどうなんでしょう)。
意味わからないと思うんですけど、下の記事がかなりわかりやすく説明してると思うので見てください。
https://mathwords.net/kyumensyutyugensho
要は次元が増えると球の表面割合がどんどん増加していき、高次元ではほぼほぼ表面となります。
メロンパンに置き換えると、メロンパンのうち「クッキー生地」を表面、「パン生地」を中身とすると、3次元程度ではクッキー生地は薄っぺらいですが、次元が増えるとほぼほぼクッキー生地のメロンパンになります。ある意味幸せな人もいるかもしれません。
また例としてハブ現象を挙げます。
これは次元が増えると多くのデータの付近に現れるデータが出現するという現象です。
わかりやすく言うと人間関係という超高次元空間においてセックスの経験人数が多い人は一握りってことです。
このようなサクサクメロンパン問題やハブ現象のように、次元の増加に伴いいろんなものが我々の感覚とズレていきます。
次元の増加で生じる感覚のズレや付きまとう不条理が次元の呪いです。
次元の呪いと平均顔
さて、ここでタイトルに近づいてきました。
みなさん平均顔って知ってますか?ググってみてください。
結構顔立ちが整った人が出てきます。超重なってる画像だから人によっては怖いと感じるかも?
このように人類の顔の平均を取ると整った顔が出力されるので、大勢の人が整った顔なのでは?という疑問が生まれると思います。だって平均を取った顔が整っているのだから。
まぁ結果から言うとそれは嘘で、先ほどの次元の呪いが関わってきます。
先ほど次元が増加するとメロンパンのほとんどがクッキー生地になるって話をしましたが、それと同じです。
顔も高次元な特徴量を持っているため、顔の分布のほとんどがクッキー生地側になります。これで平均を取ると、パン生地(中心部分)の顔になり、整った顔立ちになるというわけです(つまり整った顔の人はパン生地部分であり、あまりいない)。
ハブ現象とチー牛
最後の章?です。華麗にブログタイトルの回収です。
ハブ現象の説明はセックスの経験人数で例えましたが、実際にデータの傾向をつかむ際にハブという存在(経験人数が超多い人)は邪魔です。
例えば商品がどのような人に売れているかをデータから傾向をつかみたい場合(クラスタリング)、データの近さで計算するのですが、ハブのせいでハブを中心とした傾向ができてしまい、結果として何もわからないということになります。
つまり高次元のデータ傾向をつかむ上でハブは邪魔になります。
ここで颯爽と登場するのがチー牛です。
このチー牛顔は顔という高次元空間における陰キャという顔の傾向の中心足り得る特徴を持っている可能性があります。
つまり、チー牛の特徴量選択を組み込んだデータ傾向の獲得により、傾向をつかむ精度が向上するかもしれません。
ヤリチンに対するチー牛という可能性を感じた。
おわりに
まじでしょうもないこと書いてしまった。