查看“︁隐含狄利克雷分布”︁的源代码
←
隐含狄利克雷分布
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
'''隐含狄利克雷分布'''({{lang-en|Latent Dirichlet allocation}},简称'''LDA'''),是一种[[主题模型]],它可以将文档集中每篇文档的主题按照[[概率分布]]的形式给出。同时它是一种[[非監督式學習|无监督学习]]算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。 LDA首先由 David M. Blei、[[吴恩达]]和[[迈克尔·乔丹 (学者)|迈克尔·I·乔丹]]于2003年提出<ref name="blei2003">{{cite journal |last1 = Blei |first1 = David M. |last2 = Ng |first2 = Andrew Y. |last3 = Jordan |first3 = Michael I |authorlink3 = 迈克尔·乔丹 (学者) |title = Latent Dirichlet allocation |journal = [[Journal of Machine Learning Research]] |volume = 3 |pages = ''pp.'' 993–1022 |url = http://jmlr.csail.mit.edu/papers/v3/blei03a.html |doi = 10.1162/jmlr.2003.3.4-5.993 |editor1-last = Lafferty |editor1-first = John |issue = 4–5 |date = January 2003 |author = |access-date = 2013-07-08 |archive-url = https://web.archive.org/web/20120501152722/http://jmlr.csail.mit.edu/papers/v3/blei03a.html |archive-date = 2012-05-01 |dead-url = yes }}</ref>,目前在[[文本挖掘]]领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。 ==数学模型== [[File:Smoothed LDA.png|缩略图|LDA贝斯网络结构]] LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。它以概率分佈的形式揭示每個文檔集的主題,以便在分析一些文檔以提取其主題分佈後,可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示<ref>Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach, Buildings 2023, 13(4), 927; https://doi.org/10.3390/buildings13040927</ref>。 另外,正如[[Β分布|Beta分布]]是[[二项式分布]]的共轭[[先验概率]]分布,狄利克雷分布作为多项式分布的共轭[[先验概率]]分布。因此正如LDA[[貝氏網路|贝斯网络]]结构中所描述的,在LDA模型中一篇文档生成的方式如下: * 从狄利克雷分布<math>\alpha </math>中取样生成文档<math>i</math>的主题分布<math>\theta_i</math> * 从主题的多项式分布<math>\theta_i</math>中取样生成文档<math>i</math>中第<math>j</math>个主题<math>z_{i, j}</math> * 从狄利克雷分布<math>\beta </math>中取样生成主题<math>z_{i, j}</math>的词语分布<math>\phi_{z_{i, j}}</math> * 从词语的多项式分布<math>\phi_{z_{i, j}}</math>中采样最终生成词语<math>w_{i, j}</math> 因此整个模型中所有可见变量以及隐藏变量的[[联合分布]]是 :<math>p(w_i, z_i, \theta_i, \Phi | \alpha, \beta) = \prod_{j = 1}^{N} p(\theta_i|\alpha)p(z_{i, j}|\theta_i)p(\Phi|\beta)p(w_{i, j}|\phi_{z_{i, j}})</math> 最终一篇文档的单词分布的[[最大似然估计]]可以通过将上式的<math>\theta_i</math>以及<math>\Phi</math>进行积分和对<math>z_i</math>进行求和得到 :<math>p(w_i | \alpha, \beta) = \int_{\theta_i}\int_{\Phi }\sum_{z_i}p(w_i, z_i, \theta_i, \Phi | \alpha, \beta) </math> 根据<math>p(w_i | \alpha, \beta) </math>的最大似然估计,最终可以通过[[吉布斯采样]]等方法估计出模型中的参数。 ==使用吉布斯采样估计LDA参数== 在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下: * 首先对所有文档中的所有词遍历一遍,为其都随机分配一个主题,即<math>z_{m,n}=k\sim Mult(1/K) </math>,其中m表示第m篇文档,n表示文档中的第n个词,k表示主题,K表示主题的总数,之后将对应的<math>n_{m}^k+1</math>,<math>n_{m}+1</math>,<math>n_{k}^t+1</math>,<math>n_{k}+1</math>,他们分别表示在m文档中k主题出现的次数,m文档中主题数量的和,k主题对应的t词的次数,k主题对应的总词数。 * 之后对下述操作进行重复迭代。 * 对所有文档中的所有词进行遍历,假如当前文档m的词t对应主题为k,则<math>n_{m}^k-1</math>,<math>n_{m}-1</math>,<math>n_{k}^t-1</math>,<math>n_{k}-1</math>,即先拿出当前词,之后根据LDA中topic sample的概率分布sample出新的主题,在对应的<math>n_{m}^k</math>,<math>n_{m}</math>,<math>n_{k}^t</math>,<math>n_{k}</math>上分别+1。 :<math>p(z_i=k|z_{-i},w)</math>∝<math>(n^{(t)}_{k,-i}+\beta_t)(n_{m,-i}^{(k)}+\alpha_k)/(\sum_{t=1}^{V}n_{k,-i}^{(t)}+\beta_t)</math> * 迭代完成后输出主题-词参数矩阵φ和文档-主题矩阵θ :<math>\phi_{k,t}=(n_k^{(t)}+\beta_t)/(n_k+\beta_t)</math> :<math>\theta_{m,k}=(n_m^{(k)}+\alpha_k)/(n_m+\alpha_k)</math> == 参见 == {{div col |cols = 3 }} * {{le|萬能翻譯機|universal translator}} * [[電腦語言學]] * [[受限自然語言]] * [[信息抽取]] * [[資訊檢索]] * [[自然語言理解]] * [[潛在語義索引]] * [[潜在语义学]] * {{le|隨機文法|Stochastic grammar}} * [[機器記者]] * {{le|寫作自動評分|Automated essay scoring}} * {{le|生物醫學文件探勘系統|Biomedical text mining}} * {{le|複合詞處理|Compound term processing}} * [[计算语言学]] * {{le|電腦輔助審查|Computer-assisted reviewing}} * [[深度学习]] * {{le|深度語言處理|Deep linguistic processing}} * {{le|輔助外文閱讀|Foreign language reading aid}} * {{le|輔助外文寫作|Foreign language writing aid}} * {{le|語言科技|Language technology}} * [[隐含狄利克雷分布]](LDA) <!--* [[List of natural language processing toolkits]]--> * {{le|母语识别|Native-language identification}} * {{le|自然語言編程|Natural language programming}} * {{le|自然語言使用者界面|Natural language user interface}} * [[擴展查詢]] * {{le|具體化 (語言學)|Reification (linguistics)}} * {{le|語義折疊|Semantic folding}} * [[语音处理]] * {{le|口語對話系統|Spoken dialogue system}} * [[校對]] * {{le|文字简化|Text simplification}} * {{le|Thought vector|Thought vector}} * {{le|Truecasing|Truecasing}} * [[問答系統]] * [[Word2vec]] {{div col end}} {{-}} {{Computer Science}} {{Authority control}} == 参考文献 == {{Reflist}} [[Category:潛在變數模型]] [[Category:概率模型]] [[Category:机器学习]] [[Category:自然語言處理]]
该页面使用的模板:
Template:-
(
查看源代码
)
Template:Authority control
(
查看源代码
)
Template:Cite journal
(
查看源代码
)
Template:Computer Science
(
查看源代码
)
Template:Div col
(
查看源代码
)
Template:Div col end
(
查看源代码
)
Template:Lang-en
(
查看源代码
)
Template:Le
(
查看源代码
)
Template:Reflist
(
查看源代码
)
返回
隐含狄利克雷分布
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息