结巴分词是目前比较好的中文分词库,有几个比较好的 golang 实现。下面做一下比较分析

考虑到性能、轻便问题,没有把分词系统放到 goYouBBS 公共项目,官方使用 gojieba 作分词服务。

使用分词功能最耗资源的是内存(相对于小VPS),载入词库后内存暴涨。比如 goYouBBS 使用 gojieba ,载入一个 9MB 的词库,占用 240MB 内存,而不用分词,只用 10MB 。

原来使用新浪 SAE 分词接口,有些不理想:

http 协议容易被监听
词库好像很久没更新
不支持繁体字分词

为了改善上面的不足,把推荐分词接口改为

https://www.youbbs.org/api/fenci