Videolectures FLV下载脚本

Posted on 2011年5月17日 23:03

Videolectures内放置了大量的计算机相关的视频,尤其是机器学习相关的。可惜flv播放器采用的是rtmp协议,所以下载这些视频还是挺麻烦的。所幸看到了一个rtmpdump的命令行小软件,尽管参数写起来比较麻烦,好歹也是可以用了...

为免于每次下载视频都这么麻烦,我写了一个非常简陋的python脚本,在我电脑上实验成功了。有兴趣的可以下载来试试。注意:你需要有一定的python使用经验。

该脚本依赖于rtmpdump 2.3,需要将其所在目录添加到path中。使用方法:

videolecture_downloader web_address numparts outputfilename

其中web_address是视频的网页地址,numparts表示视频分成多少部分,outputfilename表示输出文件名

例如:

videolecture_downloader "http://videolectures.net/mlss09uk_bishop_ibi/" 2 "out.flv"

下载videolecture_downloader.py

A Note on EM Algorithm and PLSA

Posted on 2011年5月16日 16:04

关于EM算法和PLSA的读书笔记,鼓捣了半天搞不定网页直接显示,直接放PDF下载!..麻烦的不是显示数学公式,而是如何从latex转换到html格式,用了好几个都不甚满意。若干期望:

  1. 数学公式不要被转换到图片,保留tex格式
  2. 要有交叉引用和参考文献

tex4ht转换得来的html文件,span格式符一大堆,太难看了。

tex2page本来是最有前途的一款了,可惜数学公式被替换了,编辑起来会很麻烦...

 

PLSA的全称是Probabilitic Latent Sematic Analysic,用作IR的时候也被称为PLSI (Probabilistic Latent Sematic Indexing)。

下面简要介绍一下PLSA的基本思想。假设一共有 $K$ 个主题,文档 $d$ 的主题是这 $K$ 个主题的叠加,即 $(p(z_1 | d), p(z_2|d), \dots, p(z_K|d))$, 且 $\sum_{k=1}^K p(z_k|d)=1$ 。也就是说,每篇文档可以属于不同的主题。 每个主题 $z$ 是一个概率分布,关于单词的分布,即单词的分布决定了它是什么主题。 举个例子,“篮球”,“足球”这些词汇出现概率较高的话,会被认为是一个关于“体育”的主题。 而文档 $d$ 中每个单词 $w$ 被认为是由如下过程产生的:先从 $K$ 个主题中随机选择一个主题 $z_k$, 注意其服从多元分布 $\textrm{Multi} (p(z_1 | d), p(z_2|d), \dots, p(z_K|d))$,然后根据 $z_k$ 的单词分布 $p(w|z_k)$ 来随机选取一个单词...

 

下载PDF全文