本篇文章详细探讨了LDA(潜在狄利克雷分配)模型中的Gibbs采样算法,并深入推导了其后验概率计算的过程,为理解和应用该技术提供了理论支持。
理解LDA模型对很多人来说是一种挑战,尤其是在参数估计部分。本段落档详细给出了TOTLDA与LDA两个主题概率模型的参数估计所需后验概率推导过程,并采用了两种方法,这对研究主题概率模型的研究人员具有很好的启发意义。
Gibbs Sampling Derivation for LDA and ToT, Han Xiao, Ping Luo
为了对x进行估算,通常我们要从P(X)中抽样。如果P(X)不易求得,则可以通过对所有的P(x|X_)进行抽样来近似其值。
具体步骤如下:
1. 随机初始化X0=(x10,x20, ..., xN)
2. 重复进行T轮抽样,在每轮抽样中,对于i=1...N,每个xi从P(x|Xi-1,...,Xi+1,X)中抽取
3. 当Burn-in阶段完成后,可以通过几轮抽样的结果来计算P(X)
不失一般性地考虑ToT的 Gibbs sampling过程:
在TOT的 Gibbs Sampling 中,我们要求出:
\[ P(z_d | w_{di}, t_{di}, a, \beta, V) \]
然后才能根据它对生成wd、td的zd进行抽样估计。因为zd是隐变量,一旦抽样完成,则每个wa所对应的topic变成已知;对于每个document而言,其所包含的主题也变得确定了。那么文档-主题分布θd和主题-词项上的分布φ就可以非常容易地拟合出来。
Step1: 根据贝叶斯公式可以得到:
\[ P(z_d | w_{di}, t_{di}, a, \beta, V) = \frac{P(w_{di} | z_d, a, \beta) P(t_di|z_d,a,\theta)} {P(w,t,z-dil,a,B,V)}\]
根据 Graphical Model,wda和ta都是由za生成的。如果不考虑zd,则无法确定wd、td。
从而得到:
\[ P(zdw,t,z-di,a,β,V) \propto \frac{P(W,t|z_d,a,\beta)V}{P(w_di | z_d, a, \beta)}\]
Step2: 由上式可知,在 Gibbs sampling中,关键是求出如下的联合概率
\[ P(w_{di}, t_{di} | z_d, a, B) \]
...
根据Graphical Model,去掉Φ和θ后可以将联合概率拆开:
\[ P(w,t|z,a,B,V)=P(w|t,z,\beta)V\]
Step3: 引入Φ、θ对它们进行积分。再根据 Graphical Model 可以写出
\[ P(w_di, t_{di} | z_d, a) = \int{P(t_i | z_d, a) P(w_i|z_d,a,V)}dV\]
Step4: 由于从第zd个topic中抽去wd是满足多项式分布β的,因此
\[ P(w_di|z_d,\beta)=Beta(\frac{n_{zw}+1}{n_z+\beta}, \frac{\sum_v n_{zv} + \beta - (n_{zw} + 1)}{n_z+\beta})\]
同样地,由于从第d个document中抽取zd也是满足多项分布θ的,因此
\[ P(z_di|t_d,a)=Dir(\alpha)\]
...
Step5: 根据 Dirichlet后验概率分布可以将P(w,t,za,B,V)展开为:
\[ \int{p(t_i | z_d, a)p(w_i | z_d,\beta)}dV\]
...
通过上述步骤,我们可以得到每个zd的抽样方法。当迭代次数足够大时,抽样的结果会趋于稳定。
对比LDA中的Gibbs Sampling发现,在TOT模型中对zd进行采样依据的概率分布有所改变。这相当于在原始LDA的基础上增加了一个时间信息因子。
完成对zd的采样后,我们可以方便地根据n2x和naz来估计φz与θd。
例如,对于第z个topic的topic-word分布可以利用
\[ \phi_z = Dir(\frac{n_{zw} + \beta}{\sum_v n_{zv} + \beta})\]
求得。