去年春天的时候我写过一篇名为“一个更好的Twitter客户端”的文章,里面提到了使用贝叶斯算法来对tweets的内容进行过滤,把自己不喜欢的内容删除掉,这样可以解决信息过载的问题。 庄表伟对这...
由于Snow Leopard为64位系统,Apache无法加载直接编译pecl_http出来的http.so,查日志文件可以看到如下提示: PHP Warning: PHP Startu...
先说结果 借助CSSTidy和JSMin,你可以大幅度地提升前端的性能。下图是我的blog程序LT在优化以前的前端性能(用的YSlow v2): 可以看到得分只有D(65),比较低。...
中文分词简介 在使用贝叶斯算法分类文本时,中文处理是个头疼的问题,这主要体现在中文分词上。所谓分词的意思就是让计算机能够拆分出一句话中的词,比如把“我们爱祖国”分为“我们”、“爱”和“祖国”,...
上文提到了贝叶斯算法的几种开源实现,本文说说如何将其中一种名为b8的开源实现集成进CakePHP。 下载b8及安装 去b8的站点下载最新版本,将其解压至vendors目录,文件位置如ve...
用PHP的话,将Naive Bayes Classifier算法集成进你的程序的办法有三。 1. 自行实现算法 想完全自己动手的话,可以参考IBM developerWorks上的这篇“Im...
还记得电影“WALL-E”中的那个可爱的清洁工M-O吗?它和主角WALL-E的那对交流让人忍俊不禁,不过看似小巧的它倒是非常忠于工作-决不放过任何污渍(这话怎么听起来有点像洗衣粉广告?)。 M...
上文说到了用黑名单来过滤SPAM。但这方法一是比较累人,二是它没法面对未知的情况。因此在LT 0.5中,我把目光投向了在“机器学习(machine learning)”领域广泛使用的Bayesi...
据说SPAM这词的来源和计算机其实没什么关系,也不是某四个英文单词的缩写。它实际上,来自于饭店中一首完没完了地念叨着“SPAM”的歌,这歌的声音如此之大、歌词如此之烦,以至于就餐者都无法正常对话...
用流水账记录一下元旦放假三天我都干啥了。 去同学家聊天、蹭饭和打游戏 说是去蹭饭,可是两手空空去也不太像话不是,于是乎,我就买了我最爱吃的健康食品-KFC,哈哈哈! 说起游戏,读研期间我们...