A View of Tanichu (たにちゅーの思惑)

This blog is about personal thoughts and views by Tanichu. Tanichu is a nickname of Tadahiro Taniguchi.

Hierarchical Topic Models and the Nested Chinese Restaurant Process のメモ

Tehさんの NIPS2011のチュートリアル

Modern Bayesian Nonparametrics.

http://www.gatsby.ucl.ac.uk/~ywteh/teaching/npbayes.html

で,Tree構造関係のノンパラベイズの方法で引用されていたので,

以前から読みたかったので読んでみた.

文章クラスタリングの手法であるLDAを階層化するという話.

http://books.nips.cc/papers/files/nips16/NIPS2003_AA03.pdf

最初,なんかよくわからなかったのですが,

僕が勝手にイメージしていた,階層のイメージと本論文の階層のイメージが 合わなかったで,

はじめ理解に苦労しました.

LDAはざくっといえば,文章はトピックの多項分布で,トピックは単語の多項分布ってことで

文章がbag-of-wordsとして出力されているという,さっぱりしたベイズの生成モデルのイイ例なのですが.

トピックの間に階層関係などはない.

hLDAはトピックにツリー構造を入れようとしている.

2003年だから,もう10年ほど前の話なんですね.

はい,不勉強ですみません・・・.

image

グラフィカルモデルはこんな感じ.

左のc_n がツリーのノードに対応している.

ちなみに,左からの矢印が繋がっていたり,つながってなかったりで,うん? と思うし,

c1 ?> cLの path とかがよくわかんなくて,Bleiさんのこのグラフィカルモデル,これで間違いないのか

僕には自信がないです.(僕に自身がなくてもnips acceoptされてんだから,これでいいんだろうけど・・・)

でもって,c に対応する,トピックのノードが

image

Lレベルのツリー構造もっているんですね.

もちろん,ツリー構造も推定されます.

どういうモデルかというと,

まず,トピックにはtree構造があります.

で,文章は複数のトピックを持つのですが,

その複数の持ち方というのがトピックツリーのルートノードから,リーフへのpathとして表現されます.

つまり,

上の 2 なら beta1,beta2,beta5 をトピックのパラメータとしてもつ.

これらのmixtureから文章(単語の集合)が生成される と考える模様.

階層というか,

mixture っぽいんですよね.mixture component の選び方に,ツリー構造的な制約を入れた

という理解が正解な気がします.

Experimentでのsynthetic data での実験例が,それを端的に表しているように思う.

image

共通項〜個別項という分け方での分解という感じなんでしょうね.

感覚的には,どれにでも出てくる, document frequency の高いワードがroot ノードに行くようで,

tf-idfみたいな文脈とかで使えたりするのかなぁ.と思ったりもしました.

前後してPitman-Yor diffusion tree とか読んだけど,木の生成モデルとしても大分違いますね.

はい.

ちなみに,上記は僕の勝手な解釈なので,絶賛間違い指摘募集中.

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大) ? @tanichu

.@gavangavan @super_reader ルートノードのトピックは全文書上で共有されるので SN比を良くする用途にも使えそうな気がします.> nested CRP = hLDA

2:22 PM - 18 Apr 12 via TweetDeckDetails

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大) ? @tanichu

nested CRPのグラフィカルモデルは なんか,これでホントにいいのかなぁ?http://bit.ly/IM7s9U ちょっとよくわからないや.

1:14 PM - 18 Apr 12 via TweetDeckDetails

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大) ? @tanichu

「階層」という言葉にもいろいろあるものよのう. Dirichlet/Pitman-yor diffusion tree とか Kingman's coalescent とかも,同じような意味での買いそうなのだろうか?それとも違うのだろうか?不勉強だから勉強しないとだめね.

1:11 PM - 18 Apr 12 via TweetDeckDetails

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大) ? @tanichu

nested とかいっておられるが,寧ろ親子関係が 並列になっていて,そやつらが,mixtureを構成する用な感じか... 確かに,木構造の制約をいれたら,root nodeは 全ドキュメントに共有されるトピックになるわけで, たしかに,hierarchical っぽくはなる.

1:09 PM - 18 Apr 12 via TweetDeckDetails

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大) ? @tanichu

nested CRP って木のノード毎にトピックがあって,その混合でドキュメントを表すってことか????

1:06 PM - 18 Apr 12 via TweetDeckDetails