Videolectures FLV下载脚本

A Note on EM Algorithm and PLSA

luxinxin posted @ 2011年5月16日 16:04 in Note , 2670 阅读

关于EM算法和PLSA的读书笔记,鼓捣了半天搞不定网页直接显示,直接放PDF下载!..麻烦的不是显示数学公式,而是如何从latex转换到html格式,用了好几个都不甚满意。若干期望:

  1. 数学公式不要被转换到图片,保留tex格式
  2. 要有交叉引用和参考文献

tex4ht转换得来的html文件,span格式符一大堆,太难看了。

tex2page本来是最有前途的一款了,可惜数学公式被替换了,编辑起来会很麻烦...

 

PLSA的全称是Probabilitic Latent Sematic Analysic,用作IR的时候也被称为PLSI (Probabilistic Latent Sematic Indexing)。

下面简要介绍一下PLSA的基本思想。假设一共有 $K$ 个主题,文档 $d$ 的主题是这 $K$ 个主题的叠加,即 $(p(z_1 | d), p(z_2|d), \dots, p(z_K|d))$, 且 $\sum_{k=1}^K p(z_k|d)=1$ 。也就是说,每篇文档可以属于不同的主题。 每个主题 $z$ 是一个概率分布,关于单词的分布,即单词的分布决定了它是什么主题。 举个例子,“篮球”,“足球”这些词汇出现概率较高的话,会被认为是一个关于“体育”的主题。 而文档 $d$ 中每个单词 $w$ 被认为是由如下过程产生的:先从 $K$ 个主题中随机选择一个主题 $z_k$, 注意其服从多元分布 $\textrm{Multi} (p(z_1 | d), p(z_2|d), \dots, p(z_K|d))$,然后根据 $z_k$ 的单词分布 $p(w|z_k)$ 来随机选取一个单词...

 

下载PDF全文

This article is written By Luxinxin. 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
Avatar_small
full part time maids 说:
2021年10月23日 17:13

You ought to have an office cleaning crew that you trust and that show up when they say they can. It's important to get referrals from friends, other business owners and even the Better Business Bureau. Going online and looking for reviews is another way to obtain feedback. Be sure to discover a variety of information online, however, as anonymous posts can be misleading, especially if there are only one or two. Ask the cleaners for references and check up on them to ask about the quality within their service. They should also be licensed, bonded, and insured in case anything goes wrong.


登录 *


loading captcha image...
(输入验证码)
or Ctrl+Enter