平坂久門ただいま失業中

自己紹介：1964年生、Ｏ型、海老名市出身、目黒区在住、既婚、趣味アニメ/回路設計/リフォーム、最終学歴東京都立大学マンガ研究会、現職業不動産賃貸/アルバイト、社歴ソニーマグネスケール/日本HP/ソニー、2010年末失業、好きなアニメ未来少年コナン/チェンソー/四月は君の嘘／WA2／冴えカノ、異常に器用、スポーツ/虫/キュウリが苦手、よろぴくね～リンクはご自由にどうぞ．https://twitter.com/MuskeyNorm　https://www.pixiv.net/users/83487768

2015年8月27日木曜日

スパースモデリングって何ですか？

NHKの番組「サイエンスZERO」で、スパースモデリングというのを特集していました．いろいろな応用ができるうちの一つで、脳MRI画像をノイズリダクションするみたいな事例が出ていました．番組で語られていたのは、観測点数を１／１０ぐらいにしてもへっちゃらだ、という利点でしたから、ノイズリダクションとは違うみたいでした．ともあれどうしてそんな魔法みたいなコトが出来るんだろ？信号処理大好きなひら的には興味あり．

信号とノイズが混ざっていたり、信号Aと信号Bが混ざっていたりと、邪魔な信号のせいで判然としない状況をなんとかして克服する信号処理はストレージや通信の世界ではよくあります．ぶっちゃけ次のようなのが例です．

例１） HDDやDVDやケータイや地デジですでに使われている最尤復号というのがあります．送信信号にあらかじめ規則性を持たせておきます．受信信号はノイズでボロボロにやられています．受信信号を規則性から最も逸脱しないように復号します．
ゆえに広い意味で最尤復号はノイズリダクションの一種といえますが、正しく復号する根拠、すなわち、正しいかどうかの判定基準は「あらかじめの規則性」なわけです．「あらかじめの規則性」をたくさん追加するとノイズリダクション性能は向上しますけど、冗長度が増えてしまうデメリットとのトレードオフでいろいろと工夫されます．

例２） 混ざった画像Aと画像Bを分離するために、AとBの直交性を根拠にして分離するやり方もあります．ベクトルAとBの内積がゼロに近ければ直交していると呼びます．混ぜたのがあまり直交してない画像（＝似た画像）だと上手く分離できません．

例３） IEEE 802.11nの無線LANは、たくさんのデータを送るためにアンテナを４本にしたりします．すると４つの電波が混ざってグチャグチャになってしまいますが、逆計算をすれば必ず分離できますから実際にそうしています．逆計算の数式を決めるにはどうするか？答えのわかっている学習データを送信して、受信機が最も上手く分離できる数式を決定します．（たぶん）

ノイズを除去するにせよ、混ざった信号を分離するにせよ、何らかの根拠が在るから出来ているわけで、手品には必ずタネがあるのと同じです．上の３例の太字が手品のタネです．タネが無いのに分離など出来てしまったら超能力になってしまいますから．

-----
では、スパースモデリングの手品のタネは何なのか？
とあるサイトから引用しますとスパースモデリングの仕組みは、
１）高次元データの説明変数が次元数よりも少ないと仮定し
２）説明変数の個数がなるべく小さくなることと、データへの適合とを同時に要請することにより
３）自動的な説明変数の選択を可能にする枠組み
だそうです．
雰囲気的には多変量解析に近いみたいですが、１，２，３を読んでも具体的には何のコトやらさっぱりわからんちんです．

ネットをうろついて、このページの解説が判りやすかったです．
http://home.hiroshima-u.ac.jp/uemuram/?page_id=234

連立一次方程式を解く場面を考えます．Xが解きたい解です．この例のように、解きたいXがN個ある場合は、連立方程式がN本あれば解けます．正確にはＭ本≧Ｎ個ならＯＫＯＫ．

ところが、スパースモデリングは、Ｍ本≦Ｎ個の連立方程式を解くというのですから、こりゃ超能力です．つまり、Ｘが１００個（１００次元）なのに、方程式が１０本しかないじゃん、という場面です．そんなの解けるわけがあるか？？？

でも解けるのはなぜか？そのカラクリは、

たとえＸが１００次元であっても、９０個のＸがゼロであれば、解けるじゃん

というのがタネであるようです．
スパースモデリングの語源は、

１００個中９０個がゼロである＝まばらである＝スパース

から来ています．まばらとか疎という意味だそうです．

座標変換を良く知っている人なら、ある座標系では１００次元のＸが全て数値で満ちているけど、別の座標系では９０個がゼロな場合もありうるというコトを判ると思います．そういう座標変換もスパースモデリングのテクニックの一つらしい．というか自動的にそうしてくれるみたい．

-----
Ｘのどの成分がゼロなのか？それを勝手に決めるんじゃねぇ！と主張したい気になる者の一人です、わたしも．

連立一次方程式を最小二乗法で解くのは従来から知られている方法です．これがその式です．

ｙが観測値、ｘが求めたい解、Ａが連立方程式の係数、Ａｘが推定値．
｜ｙ－Ａｘ｜＾２は、観測値と推定値との距離、すなわちバッチリさの判断根拠です．どうして二乗なのかはピタゴラスの定理に出てくる二乗とまぁ同じです．
ｍｉｎは、推定値がなるべくバッチリであれ、という願望です．
「めくら撃ち」でｘをあれこれと試してみて、偶然にバッチリが達成できたとしたら、、、そのｘが連立一次方程式の解なわけです．実際にはｘの「めくら撃ち」ではなく、何らかの根拠のあるｘを試すのですが、その解説はまたの機会にいたします．

スパースモデリングも最小二乗法の変形で解くらしい．その式は、

λ｜ｘ｜という、Xの各成分の絶対値を足した項が加わっていますね．なんじゃこりゃ？これでloopが収束するのかいな？？？上式のモデリングがcase by caseで変わるのかどうかも知りません．わからないのでこれ以上考えるのはGIVE UPします．

ちなみに、統計処理向けの「Ｒ言語」というのがあります．Ｒでスパースモデリングを解くこともできるらしいです．ふ～ん、、、

スパースモデリングは脳神経科学から出てきたらしいです．脳が不要な情報をそぎ落とす動作と関係しているとかなんとかでしょうか？

通信とかストレージには使えそうにないかな？ビッグデータには使えそう．

かしこ

人気ブログランキングへ

13 件のコメント:

ソニーOB:佐藤2015年8月28日 23:07
PRMLって２～３ｄBのマージンが増えるんでしたっけ？
もう一生使うことのない技術です。職業訓練では出てきません。。。。
返信削除
返信
匿名2015年8月28日 23:08
スパースと言えばLDPCを連想しますが、関連ありますか？
返信削除
返信
匿名2015年8月30日 6:53
アダプティブEQのLMSみたいな感じ？
返信削除
返信

コメントを追加