隐含狄利克雷分布

隐含狄利克雷分布（Template:Lang-en，简称LDA），是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。

LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出^[1]，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

数学模型

LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。它以概率分佈的形式揭示每個文檔集的主題，以便在分析一些文檔以提取其主題分佈後，可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示^[2]。

另外，正如Beta分布是二项式分布的共轭先验概率分布，狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝斯网络结构中所描述的，在LDA模型中一篇文档生成的方式如下:

从狄利克雷分布 $α$ 中取样生成文档 $i$ 的主题分布 $θ_{i}$
从主题的多项式分布 $θ_{i}$ 中取样生成文档 $i$ 中第 $j$ 个主题 $z_{i, j}$
从狄利克雷分布 $β$ 中取样生成主题 $z_{i, j}$ 的词语分布 $ϕ_{z_{i, j}}$
从词语的多项式分布 $ϕ_{z_{i, j}}$ 中采样最终生成词语 $w_{i, j}$

因此整个模型中所有可见变量以及隐藏变量的联合分布是

p (w_{i}, z_{i}, θ_{i}, Φ | α, β) = \prod_{j = 1}^{N} p (θ_{i} | α) p (z_{i, j} | θ_{i}) p (Φ | β) p (w_{i, j} | ϕ_{z_{i, j}})

最终一篇文档的单词分布的最大似然估计可以通过将上式的 $θ_{i}$ 以及 $Φ$ 进行积分和对 $z_{i}$ 进行求和得到

p (w_{i} | α, β) = \int_{θ_{i}} \int_{Φ} \sum_{z_{i}} p (w_{i}, z_{i}, θ_{i}, Φ | α, β)

根据 $p (w_{i} | α, β)$ 的最大似然估计，最终可以通过吉布斯采样等方法估计出模型中的参数。

使用吉布斯采样估计LDA参数

在LDA最初提出的时候，人们使用EM算法进行求解，后来人们普遍开始使用较为简单的Gibbs Sampling，具体过程如下：

首先对所有文档中的所有词遍历一遍，为其都随机分配一个主题，即 $z_{m, n} = k \sim M u l t (1 / K)$ ，其中m表示第m篇文档，n表示文档中的第n个词，k表示主题，K表示主题的总数，之后将对应的 $n_{m}^{k} + 1$ ， $n_{m} + 1$ ， $n_{k}^{t} + 1$ ， $n_{k} + 1$ ，他们分别表示在m文档中k主题出现的次数，m文档中主题数量的和，k主题对应的t词的次数，k主题对应的总词数。
之后对下述操作进行重复迭代。
对所有文档中的所有词进行遍历，假如当前文档m的词t对应主题为k，则 $n_{m}^{k} - 1$ ， $n_{m} - 1$ ， $n_{k}^{t} - 1$ ， $n_{k} - 1$ ，即先拿出当前词，之后根据LDA中topic sample的概率分布sample出新的主题，在对应的 $n_{m}^{k}$ ， $n_{m}$ ， $n_{k}^{t}$ ， $n_{k}$ 上分别+1。

p (z_{i} = k | z_{- i}, w)

∝

(n_{k, - i}^{(t)} + β_{t}) (n_{m, - i}^{(k)} + α_{k}) / (\sum_{t = 1}^{V} n_{k, - i}^{(t)} + β_{t})

迭代完成后输出主题-词参数矩阵φ和文档-主题矩阵θ

ϕ_{k, t} = (n_{k}^{(t)} + β_{t}) / (n_{k} + β_{t})

θ_{m, k} = (n_{m}^{(k)} + α_{k}) / (n_{m} + α_{k})

参见

Template:Div col

Template:Div col end

Template:- Template:Computer Science

Template:Authority control

参考文献

Template:Reflist

↑ Template:Cite journal
↑ Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; -{R|https://doi.org/10.3390/buildings13040927}-

[blei2003-1] Template:Cite journal

[2] Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; -{R|https://doi.org/10.3390/buildings13040927}-

[1]

[2]

隐含狄利克雷分布

目录

数学模型

使用吉布斯采样估计LDA参数

参见

参考文献

导航菜单

隐含狄利克雷分布

数学模型

使用吉布斯采样估计LDA参数

参见

参考文献

导航菜单

搜索