Luxinxin's Note

Videolectures FLV下载脚本

Posted on 2011年5月17日 23:03

Videolectures内放置了大量的计算机相关的视频，尤其是机器学习相关的。可惜flv播放器采用的是rtmp协议，所以下载这些视频还是挺麻烦的。所幸看到了一个rtmpdump的命令行小软件，尽管参数写起来比较麻烦，好歹也是可以用了...

为免于每次下载视频都这么麻烦，我写了一个非常简陋的python脚本，在我电脑上实验成功了。有兴趣的可以下载来试试。注意：你需要有一定的python使用经验。

该脚本依赖于rtmpdump 2.3，需要将其所在目录添加到path中。使用方法：

videolecture_downloader web_address numparts outputfilename

其中web_address是视频的网页地址，numparts表示视频分成多少部分，outputfilename表示输出文件名

例如：

videolecture_downloader "http://videolectures.net/mlss09uk_bishop_ibi/" 2 "out.flv"

下载videolecture_downloader.py

Posted in Note|Comments(3)

A Note on EM Algorithm and PLSA

Posted on 2011年5月16日 16:04

关于EM算法和PLSA的读书笔记，鼓捣了半天搞不定网页直接显示，直接放PDF下载！..麻烦的不是显示数学公式，而是如何从latex转换到html格式，用了好几个都不甚满意。若干期望：

数学公式不要被转换到图片，保留tex格式
要有交叉引用和参考文献

tex4ht转换得来的html文件，span格式符一大堆，太难看了。

tex2page本来是最有前途的一款了，可惜数学公式被替换了，编辑起来会很麻烦...

PLSA的全称是Probabilitic Latent Sematic Analysic，用作IR的时候也被称为PLSI (Probabilistic Latent Sematic Indexing)。

下面简要介绍一下PLSA的基本思想。假设一共有 $K$ 个主题，文档 $d$ 的主题是这 $K$ 个主题的叠加，即 $(p(z_1 | d), p(z_2|d), \dots, p(z_K|d))$，且 $\sum_{k=1}^K p(z_k|d)=1$ 。也就是说，每篇文档可以属于不同的主题。每个主题 $z$ 是一个概率分布，关于单词的分布，即单词的分布决定了它是什么主题。举个例子，“篮球”，“足球”这些词汇出现概率较高的话，会被认为是一个关于“体育”的主题。而文档 $d$ 中每个单词 $w$ 被认为是由如下过程产生的：先从 $K$ 个主题中随机选择一个主题 $z_k$，注意其服从多元分布 $\textrm{Multi} (p(z_1 | d), p(z_2|d), \dots, p(z_K|d))$，然后根据 $z_k$ 的单词分布 $p(w|z_k)$ 来随机选取一个单词...

下载PDF全文

Posted in Note|Comments(1)