• Mar 03, 2010

    TinyTui2:带有降噪功能的Twitter客户端

    去年春天的时候我写过一篇名为“一个更好的Twitter客户端”的文章,里面提到了使用贝叶斯算法来对tweets的内容进行过滤,把自己不喜欢的内容删除掉,这样可以解决信息过载的问题。 庄表伟对这...

  • Jan 14, 2010

    在Snow Leopard下编译PHP的pecl_http扩展库

    由于Snow Leopard为64位系统,Apache无法加载直接编译pecl_http出来的http.so,查日志文件可以看到如下提示: PHP Warning: PHP Startu...

  • May 07, 2009

    在CakePHP中使用CSSTidy和JSMin优化前端性能

    先说结果 借助CSSTidy和JSMin,你可以大幅度地提升前端的性能。下图是我的blog程序LT在优化以前的前端性能(用的YSlow v2): 可以看到得分只有D(65),比较低。...

  • Apr 21, 2009

    SPAM、Bayesian和中文 5 - 使b8贝叶斯算法支持中文

    中文分词简介 在使用贝叶斯算法分类文本时,中文处理是个头疼的问题,这主要体现在中文分词上。所谓分词的意思就是让计算机能够拆分出一句话中的词,比如把“我们爱祖国”分为“我们”、“爱”和“祖国”,...

  • Mar 22, 2009

    SPAM、Bayesian和中文 4 - 在CakePHP中集成贝叶斯算法

    上文提到了贝叶斯算法的几种开源实现,本文说说如何将其中一种名为b8的开源实现集成进CakePHP。 下载b8及安装 去b8的站点下载最新版本,将其解压至vendors目录,文件位置如ve...

  • Mar 11, 2009

    SPAM、Bayesian和中文 3

    用PHP的话,将Naive Bayes Classifier算法集成进你的程序的办法有三。 1. 自行实现算法 想完全自己动手的话,可以参考IBM developerWorks上的这篇“Im...

  • Feb 27, 2009

    介绍M-O,LT 0.5的主角之一!

    还记得电影“WALL-E”中的那个可爱的清洁工M-O吗?它和主角WALL-E的那对交流让人忍俊不禁,不过看似小巧的它倒是非常忠于工作-决不放过任何污渍(这话怎么听起来有点像洗衣粉广告?)。 M...

  • Feb 09, 2009

    SPAM、Bayesian和中文 2

    上文说到了用黑名单来过滤SPAM。但这方法一是比较累人,二是它没法面对未知的情况。因此在LT 0.5中,我把目光投向了在“机器学习(machine learning)”领域广泛使用的Bayesi...

  • Jan 16, 2009

    SPAM、Bayesian和中文 1

    据说SPAM这词的来源和计算机其实没什么关系,也不是某四个英文单词的缩写。它实际上,来自于饭店中一首完没完了地念叨着“SPAM”的歌,这歌的声音如此之大、歌词如此之烦,以至于就餐者都无法正常对话...

  • Jan 05, 2009

    2009新年杂记

    用流水账记录一下元旦放假三天我都干啥了。 去同学家聊天、蹭饭和打游戏 说是去蹭饭,可是两手空空去也不太像话不是,于是乎,我就买了我最爱吃的健康食品-KFC,哈哈哈! 说起游戏,读研期间我们...