【徹底解説】NMFをはじめからていねいに

本記事は機械学習の徹底解説シリーズに含まれます。

初学者の分かりやすさを優先するため,多少正確でない表現が混在することがあります。もし致命的な間違いがあればご指摘いただけると助かります。

はじめに

非負値行列因子分解(NMF:Nonnegative matrix factorization)は,非負値のデータを要素にもつ行列を,頻出パターン行列とその係数行列に分解する多変量解析の手法です [1]。Leeらによって効率的な更新アルゴリズム [2] が発見されて以来,文書データ [3] や音源分離 [4] など様々な分野で応用されています。NMFの利点は,以下の三点に集約されます。

  • 非負制約による解釈容易性
  • 乖離度の選択自由性
  • 教師なし学習モデルとしての理論的な裏付け

NMFは行列が非負値であるという制限から数値計算で減算されることがないため,正負の値をとり得る行列を扱う主成分分析や特異値分解とは異なる解析結果が得られます。実際,Leeらによって導かれた反復的な更新式は,乗算近似であるため各要素の非負値性を保持するアルゴリズムとなっています。このような性質のことをスパース性,または低ランク性とよびます。また,NMFの更新式では乖離度とよばれる様々な近似の指標を用います。乖離度には任意の関数を設定することが可能ですが,特定の関数を設定することにより,確率的生成モデルによる理論的な裏付けが可能になります。

問題設定

NMFの目的は,ある非負値行列を二つの非負値行列の積で近似することです。

(1)YHU

ただし,YRL×Nを観測行列,HRL×Mを基底行列,URM×Nを係数行列とします。M<min(L,N)のときは,NMFは観測行列を少数の基底で近似します。ここで,以降の議論を簡潔に行うため,各行列を構成するベクトルを定義します。

(2)Y=[y1,,yN]=(yl,n)L×N(3)H=[h1,,hM]=(hl,m)L×M(4)U=[u1,,uN]=(um,n)M×N

これらのベクトルを用いると,行列積の定義より式(1)は以下のように表されます。

(5)ynm=1Mhmum,n

繰り返しますが,我々の目的は観測行列YHUの積で近似することです。近似を行うためには,YHUがどれだけ数学的に離れているかを評価する必要があります。この指標は乖離度とよばれ,NMFでは以下の三種類が主に利用されます。なお,乖離度は数学的な距離の公理を満たすとは限りません。

ユークリッド距離

(6)DEU(y|x)=(yx)2

Iダイバージェンス

(7)DI(y|x)=ylogyxy+x

板倉斎藤擬距離

(8)DIS(y|x)=yxlogyx1

NMFで用いる主な乖離度

いずれの乖離度も,x=yのときに最小値0をとり,xyの値が離れるほど増加する関数です。ユークリッド距離はyを中心に左右対称であるのに対し,Iダイバージェンスと板倉斎藤擬距離は非対称であり,値が大きくなりすぎることに対しては許容しますが,値が小さくなりすぎることには敏感です。加えて,Iダイバージェンスはxyを上回るとき,板倉斎藤擬距離はxyを下回るときに大きなペナルティを課します。また,式(8)から分かる通り,板倉斎藤擬距離はxyの比のみで表されているため,xyのスケールに依存しません。

音源分離では,板倉斎藤擬距離基準のNMFはスペクトルピークの一致度を重要視することや,音響信号の低域と高域を同等の重要度で扱うことを可能にし,Iダイバージェンスを乖離度に用いるよりも経験的に高い性能を発揮することが知られています [5], [6], [7]。また,Iダイバージェンスは一般化KLダイバージェンスと呼ばれることもあります。

乖離度の選択には,背後に仮定された生成モデルについても考慮する必要があります。ユークリッド二乗距離,Iダイバージェンス,板倉斎藤擬距離を乖離度とするNMFは,観測行列の要素yl,nxl,nを平均とした正規分布ポアソン分布指数分布に従って独立に生成されたと仮定した場合のH,Uの最尤推定問題と等価になります。詳しくは後述します。

以上をまとめます。乖離度をD(Y|HU)とおくと,NMFは以下の最適化問題として定式化されます。

(9)H,U=arg minH,U D(Y|HU)subject tol,mhl,m0, m,num,n0

ただし,subject toは「〇〇という制約の下で」を意味し,は「全ての〇〇」を意味します。すなわち,NMFでは行列HUの全ての要素が非負であるという条件の下で,D(Y|HU)を最小にする非負値行列H,Uを求めるという問題を解きます。

補足

上で紹介した三つの乖離度に加え,理論的な議論を行うため以下の二つの乖離度が用いられることもあります。βダイバージェンス,Bregmanダイバージェンスを乖離度とするNMFは,それぞれ観測行列の要素yl,nxl,nを平均としたTweedie分布,指数分布族に従って独立に生成されたと仮定した場合のH,Uの最尤推定問題と等価になります。

βダイバージェンス

(10)Dβ(y|x)=yββ(β1)+xββyxβ1β1

Bregmanダイバージェンス

(11)Dφ(y|x)=φ(y)φ(x)φ(x)(yx)

βダイバージェンスはβ0,1で定義され,β0のときは板倉斎藤擬距離,β1のときはIダイバージェンス,β=2のときはユークリッド距離に相当します。ゆえに,βダイバージェンスは板倉斎藤擬距離,Iダイバージェンス,ユークリッド距離の一般化といえます。さらに,Bregmanダイバージェンスは,φ: RRを任意の微分可能な関数として定義されます。φに適当な関数を仮定することで,Bregmanダイバージェンスはβダイバージェンスとなりますので,Bregmanダイバージェンスはβダイバージェンスの一般化といえます。

更新式の導出

我々の目的は,D(Y|HU)を最小化するHUを見つけることです。この最適化問題は解析的に解くことが難しいため,NMFでは補助関数法を用います。

補助関数である目的関数の上限を探すために,以下のイェンセン(Jensen)の不等式と接線の不等式がよく用いられます。

イェンセンの不等式

f(x)が区間I上で定義された狭義凸関数のとき,x1,,xnIλi0かつi=1nλi=1を満たす任意の実数λ1,,λnに対して,次が成り立つ。

(12)f(i=1nλixi)i=1nλif(xi)

ただし,等号成立条件はx1==xnである。

接線の不等式

f(x)が区間I上で定義された狭義凹関数のとき,αIに対して次が成り立つ。

(13)f(x)f(α)+f(α)(xα)

ただし,等号成立条件はx=αである。

以下では,これらの不等式と補助関数法を用いて,乖離度にユークリッド距離,Iダイバージェンス,板倉斎藤擬距離を用いた場合のNMFの更新式を導出していきます。

ユークリッド距離

最初に結論を述べます。

ユークリッド距離基準のNMF
  1. H,Uに非負の初期値を与える
  2. 以下の更新式を収束するまで繰り返す

(14)hl,m  hl,mn=1Nyl,num,nn=1Num,nm=1Mhl,mum,n(15)um,n  um,nl=1Lyl,nhl,ml=1Lhl,mm=1Mhl,mum,n

早速更新式の導出を始めます。簡単のため,行列表記でなく要素を書き下す形で計算します。

(16)DEU(YHU)=(YHU)2(17)=l=1Ln=1N{yl,n22yl,nm=1Mhl,mum,n+(m=1Mhl,mum,n)2}(18)=h,ul=1Ln=1N{2yl,nm=1Mhl,mum,n+(m=1Mhl,mum,n)2}

この式を最小にするhl,mum,nを求めればよいのですが,第二項目が合成関数の形になっており微分してもシグマが残ってしまうため,解析的に解くことができません。そこで,上で述べた補助関数法を用いて反復的に近似解を求めるアプローチをとりたいと思います。

補助関数法を用いるために,DEUの上限を求めましょう。上限を求めるためには,第二項目がf(x)=x2の形になっていることに注目して,上で述べたイェンセンの不等式を利用します。そのために,

(19)λl,m,n>0,m=1Mλl,m,n=1

を満たす補助変数λl,m,nを無理やり導入します。

(20)DEU(YHU)=h,ul=1Ln=1N{2yl,nm=1Mhl,mum,n+(m=1Mλl,m,nhl,mum,nλl,m,n)2}(21)l=1Ln=1N{2yl,nm=1Mhl,mum,n+m=1Mλl,m,n(hl,mum,nλl,m,n)2}(22)=l=1Ln=1N{2yl,nm=1Mhl,mum,n+m=1Mhl,m2um,n2λl,m,n}

ただし,二階微分が正であるならば狭義凸であること,すなわちf(x)=x2に対しf(x)=2>0であるからf(x)=x2は狭義凸であることを利用しました。また,イェンセンの不等式の等号成立条件より,等号は

(23)hl,1u1,nλl,1,n=hl,2u2,nλl,2,n==hl,MuM,nλl,M,n

のとき成り立ちます。式(23)とλl,m,nの制約条件(19)から等号を成立させるλl,m,nを求めましょう。まず,式(29)をλl,1,nについてまとめると,以下のようになります。

(24)λl,2,n=hl,2u2,nhl,1u1,nλl,1,n,,λl,M,n=hl,MuM,nhl,1u1,nλl,1,n

これをλl,m,nの制約条件(19)に代入します。

(25)m=1Mλl,m,n=λl,1,n+hl,2u2,nhl,1u1,nλl,1,n++hl,MuM,nhl,1u1,nλl,1,n(26)=(1+hl,2u2,nhl,1u1,n++hl,MuM,nhl,1u1,n)λl,1,n(27)=m=1Mhl,mum,nhl,1u1,nλl,1,n=1

すなわち,以下が得られます。

(28)λl,1,n=hl,1u1,nm=1Mhl,mum,n

m=2,,Mに対して同じ手続きを施すことにより,等号成立条件は以下のようになります。

(29)λl,m,n=hl,mum,nm=1Mhl,mum,n

ここで,表記を簡潔にするためにλl,m,nの行列表記を導入します。

(30)Λ=(λl,m,n)L×M×N

式(29)により式(22)が最小化されますので,式(22)の上限は補助関数,Λは補助変数の要件を満たしています。改めて式(22)の上限をGEU(H,U,Λ)とおくと,

(31)DEU(YHU)GEU(H,U,Λ)

が成り立ちます。あとは補助関数法に従い,GEUを最小にするHUを求めるだけです。GEUをよく観察すると,hl,mum,nに対して二次関数の形をしていますので,hl,mum,nそれぞれで偏微分した導関数が0となる値がGEUを最小にする値となります。

狭義凸関数は,極小値が存在するならば最小値だけであるという性質をもちます。したがって,狭義凸関数f(x)=x2に対してf(x^)=0を満たすx^が存在するのであれば,f(x^)は最小値となることが保証されます。

しかし,hl,mum,nは非負であるという制約がありますので,もし導関数を0にする値が負となる場合には,0GEUを最小化する値になります。すなわち,GEUの導関数を0にするhl,mum,nをそれぞれh^l,m,u^m,nとおくと,補助関数法に基づくユークリッド距離を乖離度としたNMFの更新式は以下で求められます。

(32)hl,m  max(0,h^l,m)(33)um,n  max(0,u^m,n)

まずは,GEUHに関する導関数が0になるという条件を考えます。

(34)GEUhl,m=n=1N(2yl,num,n+2hl,mum,n2λl,m,n)=0

これを整理すると,以下が得られます。

(35)h^l,m=n=1Nyl,num,nn=1Num,n2/λl,m,n

次に,GEUUに関する導関数が0になるという条件を考えます。

(36)GEUum,n=l=1L(2yl,nhl,m+2hl,m2um,nλl,m,n)=0

これを整理すると,以下が得られます。

(37)u^m,n=l=1Lyl,nhl,ml=1Lhl,m2/λl,m,n

さて,式(29),式(35),式(37)を式(32),式(33)に代入すればよいのですが,式(29),式(35),式(37)を観察してみると,Yが非負値かつH,Uの初期値に非負値を与えた場合には,これらの式は必ず非負の値をとることが分かります。したがって,式(32),式(33)は不要になり,式(29),式(35),式(37)を更新式として採用すればよいことが分かります。

Λはこちら側の都合で勝手に導入した補助変数ですので,最後の仕上げとして式(29)は式(35),式(37)に代入してλl,m,nを消去した形にしてあげます。以上より,冒頭の更新式が示されました。

Iダイバージェンス

最初に結論を述べます。

Iダイバージェンス基準のNMF
  1. H,Uに非負の初期値を与える
  2. 以下の更新式を収束するまで繰り返す

(38)hl,m  hl,mn=1N{yl,num,n/m=1Mhl,mum,n}n=1Num,n(39)um,n  um,nl=1L{yl,nhl,m/m=1Mhl,mum,n}l=1Lhl,m

更新式の導出方法は,ユークリッド距離の場合と同様です。

(40)DI(YHU)=l=1Ln=1N(yl,nlogyl,nm=1Mhl,mum,nyl,n+m=1Mhl,mum,n)(41)=h,ul=1Ln=1N(yl,nlogm=1Mhl,mum,n+m=1Mhl,mum,n)

この式を最小にするhl,mum,nを求めればよいのですが,第一項目がlog-sumの形になっており解析的に解くことができません。そこで,上で述べた補助関数法を用いて反復的に近似解を求めるアプローチをとりたいと思います。

補助関数法を用いるために,DIの上限を求めましょう。上限を求めるためには,第一項目がf(x)=logxになっていることに注目して,上で述べたイェンセンの不等式を利用します。そのために,ユークリッド距離基準の更新式導出でも利用した補助変数λl,m,nを無理やり導入します。

(42)DI(YHU)=h,ul=1Ln=1N(yl,nlogm=1Mλl,m,nhl,mum,nλl,m,n+m=1Mhl,mum,n)(43)l=1Ln=1N(yl,nm=1Mλl,m,nloghl,mum,nλl,m,n+m=1Mhl,mum,n)(44)=h,ul=1Ln=1N(yl,nm=1Mλl,m,nloghl,mum,n+m=1Mhl,mum,n)

ただし,二階微分が正であるならば狭義凸であること,すなわちf(x)=logxに対しf(x)=1/x2>0であるからf(x)=logxは狭義凸であることを利用しました。また,イェンセンの不等式の等号成立条件より,等号は

(45)hl,1u1,nλl,1,n=hl,2u2,nλl,2,n==hl,MuM,nλl,M,n

のとき成り立ちます。これは,ユークリッド距離の等号成立条件(23)と全く同じ形をしていますので,等号成立条件は以下のようになります。

(46)λl,m,n=hl,mum,nm=1Mhl,mum,n

式(46)により式(44)が最小化されますので,式(44)の上限は補助関数,Λは補助変数の要件を満たしています。改めて式(44)の上限をGI(H,U,Λ)とおくと,

(47)DI(YHU)GI(H,U,Λ)

が成り立ちます。あとは補助関数法に従い,GIを最小にするHUを求めるだけです。GIをよく観察すると,hl,mum,nに対してlogx+xの形をしていますので,hl,mum,nそれぞれで偏微分した導関数が0となる値がGIを最小にする値となります。

上で説明した通り,狭義凸関数には極小値が存在するならば最小値だけであるという性質があります。したがって,狭義凸関数f(x)=logx+xに対してf(x^)=0を満たすx^が存在するのであれば,f(x^)は最小値となることが保証されます。さらに,logxの定義域はx>0であることから,ユークリッド距離基準の更新式の導出過程とは異なり,hl,mum,nは非負であるという制約は既に課せられています。

まずは,GIHに関する導関数が0になるという条件を考えます。

(48)GIhl,m=n=1N(yl,nλl,m,nhl,m+um,n)=0

これを整理すると,以下が得られます。

(49)h^l,m=n=1Nyl,nλl,m,nn=1Num,n

次に,GIUに関する導関数が0になるという条件を考えます。

(50)GIum,n=l=1L(yl,nλl,m,num,n+hl,m)=0

これを整理すると,以下が得られます。

(51)u^m,n=l=1Lyl,nλl,m,nl=1Lhl,m

Λはこちら側の都合で勝手に導入した補助変数ですので,最後の仕上げとして式(46)は式(49),式(51)に代入してλl,m,nを消去した形にしてあげます。以上より,冒頭の更新式が示されました。

板倉斎藤擬距離

最初に結論を述べます。

板倉斎藤擬距離基準のNMF
  1. H,Uに非負の初期値を与える
  2. 以下の更新式を収束するまで繰り返す

(52)hl,m  hl,m[n=1N{yl,num,n/(m=1Mhl,mum,n)2}n=1N{um,n/m=1Mhl,mum,n}]1/2(53)um,n  um,n[l=1L{yl,nhl,m/(m=1Mhl,mum,n)2}l=1L{hl,m/m=1Mhl,mum,n}]1/2

更新式の導出方法は,ユークリッド距離・Iダイバージェンスに基づく更新式はLeeらによって導かれましたが,板倉斎藤擬距離に基づく更新式はFevotteらによって導かれました。

実はFevotteらよりも早く、亀岡らによりNMFとは別文脈で補助関数法を用いた板倉斎藤擬距離に基づく最適化手法が提案されています。

とはいえ,更新式の導出方法の大枠はユークリッド距離の場合と同様です。

(54)DIS(YHU)=l=1Ln=1N(yl,nm=1Mhl,mum,nlogyl,nm=1Mhl,mum,n1)(55)=h,ul=1Ln=1N(yl,nm=1Mhl,mum,n+logm=1Mhl,mum,n)

この式を最小にするhl,mum,nを求めればよいのですが,第一項目・第二項目のいずれも合成関数の形になっており微分してもシグマが残ってしまうため,解析的に解くことができません。そこで,上で述べた補助関数法を用いて反復的に近似解を求めるアプローチをとりたいと思います。

補助関数法を用いるために,DISの上限を求めましょう。ただし,今回はユークリッド距離・Iダイバージェンスとは異なり,式(55)の第一項目と第二項目にhl,mum,nが使われていますので,補助変数と補助関数の要件を満たす上限を求めるためにはそれぞれ関する上限を求める必要があります。そこで,まずは第一項目に関する上限を求めましょう。第一項目がf(x)=1/xの形になっていることに注目して,上で述べたイェンセンの不等式を利用します。そのために,ユークリッド距離基準の更新式導出でも利用した補助変数λl,m,nを無理やり導入します。

(56)DIS(YHU)=h,ul=1Ln=1N(yl,nm=1Mλl,m,n(hl,mum,n/λl,m,n)+logm=1Mhl,mum,n)(57)l=1Ln=1N(m=1Mλl,m,nyl,nhl,mum,n/λl,m,n+logm=1Mhl,mum,n)

ただし,二階微分が正であるならば狭義凸であること,すなわちx>0f(x)=1/xに対しf(x)=2/x3>0よりf(x)=1/xは狭義凸であることを利用しました。また,イェンセンの不等式の等号成立条件より,等号は

(58)hl,1u1,nλl,1,n=hl,2u2,nλl,2,n==hl,MuM,nλl,M,n

のとき成り立ちます。これは,ユークリッド距離の等号成立条件(23)と全く同じ形をしていますので,等号成立条件は以下のようになります。

(59)λl,m,n=hl,mum,nm=1Mhl,mum,n

続いて,式(55)の第二項目に対して上限を求めます。f(x)=logxf(x)=x2<0より,f(x)=logxは狭義凹となりますので,イェンセンの不等式ではなく接線の不等式を利用します。

(60)DIS(YHU)l=1Ln=1N(m=1Mλl,m,nyl,nhl,mum,n/λl,m,n+logm=1Mhl,mum,n)(61)=l=1Ln=1N(m=1Mλl,m,nyl,nhl,mum,n/λl,m,n+logxl,n)(62)l=1Ln=1N(m=1Mλl,m,nyl,nhl,mum,n/λl,m,n+logαl,n+(xl,nαl,n)/αl,n)

ただし,m=1Mhl,mum,n=xl,nとおきました。接線の不等式の等号成立条件より,等号は

(63)αl,n=xl,n=m=1Mhl,mum,n

のとき成り立ちます。ここで,表記を簡潔にするためにαl,nの行列表記を導入します。

(64)α=(αl,n)L×N

式(59)と式(63)により式(57)が最小化されますので,式(57)の上限は補助関数,Λαは補助変数の要件を満たしています。改めて式(57)の上限をGIS(H,U,Λ,α)とおくと,

(65)DIS(YHU)GIS(H,U,Λ,α)

が成り立ちます。あとは補助関数法に従い,GISを最小にするHUを求めるだけです。GISをよく観察すると,hl,mum,nに対してx1+logxの形をしていますが,これは狭義凸でも狭義凹でもありません。しかし,以下のようにグラフを描いてみると,hl,mum,nそれぞれで偏微分した導関数が0となる値がGEUを最小にする値となることが分かります。

f(x)=1/x+logxのグラフ

logxの定義域はx>0であることから,ユークリッド距離基準の更新式の導出過程とは異なり,hl,mum,nは非負であるという制約は既に課せられています。

まずは,GISHに関する導関数が0になるという条件を考えます。

(66)GIShl,m=n=1N(yl,nλl,m,n2hl,m2um,n+um,nαl,n)=0

これを整理すると,以下が得られます。

(67)h^l,m={n=1Nyl,nλl,m,n2/um,nn=1N(um,n/m=1Mhl,mum,n)}1/2

ただし,hl,m>0を利用しました。次に,GISUに関する導関数が0になるという条件を考えます。

(68)GISum,n=l=1L(yl,nλl,m,n2hl,mum,n2+hl,mαl,n)=0

これを整理すると,以下が得られます。

(69)u^m,n={l=1Lyl,nλl,m,n2/hl,ml=1L(hl,m/m=1Mhl,mum,n)}1/2

ただし,um,n>0を利用しました。Λαはこちら側の都合で勝手に導入した補助変数ですので,最後の仕上げとして式(59),式(63)は式(67),式(69)に代入してλl,m,nαl,nを消去した形にしてあげます。以上より,冒頭の更新式が示されました。

生成モデルによる解釈

ユークリッド二乗距離,Iダイバージェンス,板倉斎藤擬距離を乖離度とするNMFは,観測行列の要素yl,nxl,nを平均とした正規分布ポアソン分布指数分布に従って独立に生成されたと仮定した場合のH,Uの最尤推定問題と等価になります。ここで,以降の議論を簡潔に行うため,

(70)X=[x1,,xn]=(xl,n)L×N

を満たすxnを定義します。このとき,NMFの最適化問題(9)はつぎのように表されます。

(71)X=arg minX D(YX)subject tol,nxl,n0

以下では,各種乖離度に基づくNMFはある確率分布に対する最尤推定問題と等価になることを示します。

ユークリッド二乗距離基準

観測行列の要素yl,nが平均xl,n,分散σ2正規分布から独立に生成されること,すなわち

(72)yl,nN(xl,n,σ2)

を仮定します。このとき,対数尤度をLNとおくと,

(73)LN=log{l=1Ln=1Np(yl,n|xl,n)}(74)=l=1Ln=1Nlogp(yl,n|xl,n)(75)=l=1Ln=1Nlog[12πσexp{(yl,nxl,n)22σ2}](76)=xl=1Ln=1N(yl,nxl,n)2(77)=l=1Ln=1NDEU(yl,n|xl,n)

と表されます。DEUの等号を反転させると,DEULNと等価になります。したがって,対数尤度LNの最大化はユークリッド二乗距離DEUの最小化と等価になります。

Iダイバージェンス基準

観測行列の要素yl,nxl,nをパラメータとしたポアソン分布から独立に生成されること,すなわち

(78)yl,nPo(xl,n)

を仮定します。ただし,ポアソン分布の実現値は整数値であることから,yl,nは非負の整数値に限定されることに注意してください。このとき,対数尤度をLPoとおくと,

(79)LPo=log{l=1Ln=1Np(yl,n|xl,n)}(80)=l=1Ln=1Nlogp(yl,n|xl,n)(81)=l=1Ln=1Nlog(xl,nyl,nyl,n!exl,n)(82)=xl=1Ln=1N(yl,nlogxl,nxl,n)(83)l=1Ln=1NDI(yl,n|xl,n)

と表されます。DIにおいて,定数である観測値yl,nに関する項を除いて等号を反転させると,DILPoと等価になります。したがって,対数尤度LPoの最大化はIダイバージェンスDIの最小化と等価になります。

板倉斎藤擬距離基準

観測行列の要素yl,nxl,nを尺度母数とした指数分布から独立に生成されること,すなわち

(84)yl,nExp(1/xl,n)

を仮定します。ただし,xl,n0とならないことを仮定し,指数分布のパラメータの逆数を尺度母数としている点に注意してください。このとき,対数尤度をLExpとおくと,

(85)LExp=log{l=1Ln=1Np(yl,n|xl,n)}(86)=l=1Ln=1Nlogp(yl,n|xl,n)(87)=l=1Ln=1Nlog(eyl,n/xl,n1/xl,n)(88)=l=1Ln=1N{yl,n/xl,nlog(1/xl,n)}(89)l=1Ln=1NDIS(yl,n|xl,n)

と表されます。DISにおいて,定数である観測値yl,nに関する項と定数1を除いて等号を反転させると,DISLExpと等価になります。したがって,対数尤度LExpの最大化は板倉斎藤擬距離DISの最小化と等価になります。

上述の通り,βダイバージェンス,Bregmanダイバージェンスを乖離度とするNMFは,それぞれ観測行列の要素yl,nxl,nを平均としたTweedie分布,指数分布族に従って独立に生成されたと仮定した場合のH,Uの最尤推定問題と等価になります。

実装

本章では,ユークリッド二乗距離基準・Iダイバージェンス基準・板倉斎藤擬距離基準のNMFの実装方法をお伝えしていきます。簡単のため,今回は下記のパラメータを仮定します。

(90)L=10,M=5,N=10

なお,Githubで公開している実装では,dockerを用いてNMFが実行できる環境を用意しています。上記パラメータを含め,さまざまなパラメータをdocker-compose.ymlで管理しています。

ソースコードのコメントは英語で書いています。これはGithubで公開する際に,外国の方々にも参考にしていただきたいからです。また,コメント規則であるdocstringはGoogleスタイルを利用しています。

ここからは,以下の形式でメソッド単位で解説を行っていきます。

[メソッド名・その他タイトルなど]

# ソースコード

[ソースコードの解説]

データの準備

以下では,NMFを適用するデータを生成していきます。

import numpy as np
import matplotlib.pyplot as plt
import sys

標準的なライブラリをインポートします。

Y = np.random.randint(1, 10, (10, 10)) # [1,10]の値を取る(10,10)サイズの行列を分解する

適当な近似行列を定義します。ただし,GitHubで公開している実装では,docker-compose.ymlによって,与えたパラメータにしたがって観測行列Yを自動生成する仕組みになっています。

NMFクラスの定義

class NMF():

ここからは,NMFクラスを定義していきます。

コンストラクタ

    def __init__(self, Y, M):
        """コンストラクタ

        Args:
            Y (numpy ndarray): (N, L)サイズの観測行列
            M (int): 基底の数

        Returns:
            None.

        Note:
            eps (float): オーバーフローとアンダーフローを防ぐための微小量
        """
        self.eps = np.spacing(1)
        self.Y = Y 
        self.M = M

コンストラクタでは,観測行列Yと基底数Mを初期化します。また,ゼロ除算やゼロの対数によるオーバーフローとアンダーフローを防ぐための微小量epsも定義します。

パラメータ初期化メソッド

    def init_params(self):
        """パラメータ初期化メソッド

        Args:
            None.

        Returns:
            None.
        """
        self.cost_tmp = 10**6 # 適当に大きな数
        self.cost = np.array([self.cost_tmp]) # 乖離度を記録するための配列
        self.cnt_iteration = 1 # イテレーション回数を記憶しておく変数

コンストラクタとは別に,パラメータ初期化メソッドを定義します。これは,一つのクラスで複数の乖離度に基づく更新を行うためです。

行列初期化メソッド

    def init_matrix(self):
        """行列初期化メソッド

        Args:
            None.
        Returns:
            None.
        """
        self.H = np.random.uniform(low=1, high=10, size=(self.Y.shape[0], self.M)) # (L, M)
        self.U = np.random.uniform(low=1, high=10, size=(self.M, self.Y.shape[1])) # (M, N)
        self.X = self.H @ self.U

パラメータ初期化メソッドと同様に,パラメータ初期化メソッドを定義します。

乖離度計算メソッド

    def EU_divergence(self):
        """ユークリッド二乗距離計算メソッド

        Args:
            None.
        Returns:
            None.
        """
        self.cost_tmp = ((self.X-self.Y)**2).mean()

    def I_divergence(self):
        """Iダイバージェンス計算メソッド

        Args:
            None.
        Returns:
            None.
        """
        self.cost_tmp = (self.Y*np.log(self.Y/(self.X+self.eps)+self.eps)-self.Y+self.X).mean()

    def IS_divergence(self):
        """板倉斎藤擬距離計算メソッド

        Args:
            None.
        Returns:
            None.
        """
        self.cost_tmp = (self.Y/(self.X+self.eps)-np.log(self.Y/(self.X+self.eps)+self.eps)-1).mean()

各種乖離度を計算するメソッドを定義します。ここに他の乖離度を定義することも可能です。

更新メソッド

    def EU_update(self):
        """ユークリッド二乗距離基準のNMF更新式計算メソッド

        Args:
            None.
        Returns:
            None.
        """
        self.H *= (self.Y @ self.U.T) / ((self.H @ self.U) @ self.U.T + self.eps)
        self.U *= (self.Y.T @ self.H).T / ((self.H @ self.U).T @ self.H + self.eps).T

    def I_update(self):
        """Iダイバージェンス基準のNMF更新式計算メソッド

        Args:
            None.
        Returns:
            None.
        """
        self.H *= ((self.Y / ((self.H @ self.U) + self.eps)) @ self.U.T)  / (self.U.sum(axis=1, keepdims=True).T + self.eps)
        self.U *= ((self.Y / ((self.H @ self.U) + self.eps)).T @ self.H).T  / (self.H.sum(axis=0, keepdims=True).T + self.eps)

    def IS_update(self):
        """板倉斎藤擬距離基準のNMF更新式計算メソッド

        Args:
            None.
        Returns:
            None.
        """
        self.H *= np.sqrt(((self.Y / ((self.H @ self.U)**2 + self.eps)) @ self.U.T) / (self.U @ (1/((self.H @ self.U) + self.eps)).T + self.eps).T)
        self.U *= np.sqrt(((self.Y / ((self.H @ self.U)**2 + self.eps)).T @ self.H).T / (self.H.T @ (1/((self.H @ self.U) + self.eps)) + self.eps))

各種乖離度に対する解析的な更新式を定義します。特に,ゼロ除算やゼロの対数によるオーバーフローとアンダーフローを防ぐためにコンストラクタで定義した微小量を利用する点に注意してください。

学習メソッド

    def execute(self, n_iteration, divergence):
        """学習メソッド

        Args:
            n_iteration (int): 学習回数の上限
            divergence (String): "EU", "I", "IS"のうちいずれかの乖離度
        Returns:
            None.
        """
        while True:
            if (divergence=="EU"):
                self.EU_update()
                self.EU_divergence()
            elif (divergence=="I"):
                self.I_update()
                self.I_divergence()
            elif (divergence=="IS"):
                self.IS_update()
                self.IS_divergence()
            else:
                print("Please select from EU, I, IS for the divergence.")
                sys.exit(1)

            if (self.cnt_iteration >= n_iteration or self.cost_tmp > self.cost[-1]):
                print(f"====={self.cnt_iteration}回目でcostが悪化したため終了=====")
                break
            else:
                self.X = self.H @ self.U
                self.cost = np.append(self.cost, self.cost_tmp)
                self.cnt_iteration += 1

上で定義した各種メソッドを利用して,学習を行うメソッドを定義します。DNNの確率的勾配降下法とは異なり,NMFでは解析的な解に基づく更新式を繰り返し適用していきますので,本来であれば学習回数のみを指定してあげればよいのです。しかし,今回は「更新回数の上限に到達した」または「コストである乖離度が悪化した」場合に学習を停止させるようにしています。後者を入れているのは,微小量とはいえゼロ除算やゼロの対数に近い演算を行うことによる情報の欠落や,初期値のランダム性による局所解への収束が考えられるためです。

乖離度の減少過程描画メソッド

    def visualize_cost(self):
        """乖離度減少過程可視化メソッド

        Args:
            None.
        Returns:
            None.
        """
        index = np.arange(self.cost.size-2)
        plt.figure(figsize=(16,9))
        plt.rcParams["font.size"] = 18
        plt.plot(index, self.cost[2:], color=(0.93,0.27,0.17))

乖離度の減少過程をグラフ化するメソッドを定義します。ここではplotしていますが,GitHubで公開している実装ではコンテナとvolumeマウントを行い,画像を保存しています。

観測行列と近似行列の描画メソッド

    def visualize_heatmap(self):
        """観測行列と近似行列の描画メソッド

        Args:
            None.
        Returns:
            None.
        """
        fig, axes = plt.subplots(1, 2, figsize=(16,9))
        fig.subplots_adjust(wspace=0.1, hspace=0.1)
        axes[0].imshow(self.Y, cmap="inferno")
        axes[0].axis("off")
        axes[1].imshow(self.X, cmap="inferno")
        axes[1].axis("off")
        plt.show()

観測行列と近似行列をヒートマップで可視化するメソッドを定義します。このメソッドを通して,NMFがどれだけ精度良く加速行列を近似できたかを定性的に観察することができます。

パラメータの設定

M = 5 # 基底の数は5
n_iteration = 100 # 更新回数は100

各種パラメータを設定します。

NMFクラスのインスタンス化

model = NMF(Y, M)

上で定義したNMFクラスをインスタンス化しましょう。

NMFの実行

上でも言及した通り,NMFでは適切でない初期値を与えると局所解に収束してしまう可能性があります。そこで,今回は「パラメータで設定した更新回数の上限に初めて達した場合」の結果を抽出することにします。

ユークリッド二乗距離基準

while True:
    model.init_matrix()
    model.init_params()
    model.execute(n_iteration, "EU")
    if model.cnt_iteration == n_iteration:
        break
model.visualize_cost()
model.visualize_heatmap()

ユークリッド二乗距離基準の乖離度減少過程は以下のようになりました。

ユークリッド二乗距離基準のNMFにおける乖離度減少過程

ユークリッド二乗距離基準の観測行列と近似行列の可視化は以下のようになりました。

左側が観測行列Y,右側が近似行列Xを表します

Iダイバージェンス基準

while True:
    model.init_matrix()
    model.init_values()
    model.execute(n_iteration, "I")
    if model.cnt_iteration == n_iteration:
        break
model.visualize_cost()
model.visualize_heatmap()

Iダイバージェンス基準の乖離度減少過程は以下のようになりました。

Iダイバージェンス基準のNMFにおける乖離度減少過程

Iダイバージェンス基準の観測行列と近似行列の可視化は以下のようになりました。

左側が観測行列Y,右側が近似行列Xを表します

板倉斎藤擬距離基準

while True:
    model.init_matrix()
    model.init_values()
    model.execute(n_iteration, "IS")
    if model.cnt_iteration == n_iteration:
        break
model.visualize_cost()
model.visualize_heatmap()

板倉斎藤擬距離基準の乖離度減少過程は以下のようになりました。

ISダイバージェンス基準のNMFにおける乖離度減少過程

板倉斎藤擬距離基準の観測行列と近似行列の可視化は以下のようになりました。

左側が観測行列Y,右側が近似行列Xを表します

おわりに

深層学習(DNN:deep neural networks)の発展が凄まじい昨今においても,NMFにはDNNを用いた手法と匹敵するポテンシャルがあります。数学的な妥当性の担保が難しいDNNベースの手法とは対照的に,確率的生成モデルによる裏付けが可能なNMFを用いた研究には,地に足つけた取り組みが多い印象があります。特に音源分離の分野では,いまだにNMFに基づく手法の性能が高いことが知られています。

しかしながら,NMFには残された課題も数多く存在します。まず,モデルの緻密さを表す基底数が自明でないため,状況によって設定する必要があります [8]。さらに,自明なパラメータが多数存在することからNMFの最適化問題はNP困難であることが知られています [9]。実際,NMFの分解には一意性がなく [10],初期値に依存して意図しない解に収束することが多いです。これらの課題を克服し,DNNベースの手法を理論・性能の両側面から凌駕するような研究が今後積極的になされることを期待しています。

NMFを音響信号の観測スペクトログラムに適用する場合には,スペクトルは加法的であるという仮定と周波数成分比が時不変でゲインのみが時間変化するという仮定をおいています。これらの仮定は実際には成り立たないため,NMFを複素領域に拡張してモデルとしての妥当性を担保する複素NMF [11] が提案されています。

参考文献

[1] Lee+. Learning the Parts of Objects by Non-negative Matrix Factorization. Nature, 1999.
[2] Lee+. Algorithms for Non-negative Matrix Factorization. NeurIPS, 2001.
[3] Xu+. Document Clustering Based on Non-negative Matrix Factorization. ACM, 2003.
[4] Smaragdis+. Supervised and Semi-supervised Separation of Sounds from Single-channel Nixtures. ICA, 2007.
[5] King+. Optimal Cost Function and Magnitude Power for NMF-based Speech Separation and Music Interpolation. MLSP, 2012.
[6] Fitzgerald+. On the Use of the Beta Divergence for Musical Source Separation. In IET, 2009.
[7] Nakano+. Convergence-guaranteed Multiplicative Algorithms for Nonnegative Matrix Factorization with β-divergence. MLSP, 2010.
[8] Tan+. Automatic Relevance Determination in Nonnegative Matrix Factorization with the/spl beta/-divergence. TPAMI, 2012.
[9] Vavasis. On the Complexity of Nonnegative Matrix Factorization. SIAM, 2010.
[10] Huang+. Non-negative Matrix Factorization Revisited: Uniqueness and Algorithm for Symmetric Decomposition. TSP, 2013.
[11] Kameoka+. Complex NMF: A New Sparse Representation for Acoustic Signals. ICASSP, 2009.

シェアはこちらからお願いします!

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.