今天,无意之间发现HanLP作者何晗出了书,这可能是中文里唯一一个开发了自然语言处理库又写出书来的人了。作者是Emroy毕业的博士,这才是真正做事的人呀。没有看书的内容,但我猜这本书应该是把基本原理讲得最透彻的了,不管怎么样,实际开发过一个NLP库的人,比起只写原理的人应该写的都是人话。话不多说,直接上书籍链接

比起其他书的优势,估计应该是最贴合工程实践了。比起那些用Python写NLP书的人,这应该才算是实际工作中的情景。我是没见过哪个大单位用Python开发的,即使你用Python实验,恐怕最后还是要转成Java或者C++。我想小伙伴读了这本书,基本上就可以直接上手做项目了。

什么时候有人使用C系语言也能开发个基础库。我是没人家何晗那两下子了。哎。中国如果能有越来越多这样的书出来,那中国的NLP我想一定可以有大的发展了。如果还是像现在这样跟个大熊猫是的珍贵,那永远起不来。我看何晗比那些得了什么这奖那者的强多了,比天天在那儿又这个算法好了,那个算法好了的也强多了,最可贵的是人家愿意分享出来,在那儿遮遮掩掩的,我看就是啥都没有,所以才要遮。不光说的那些天天研究的,还有那些做工程的也一样,不信C系没有人能写出HanLP这样的库,只不过是不愿意分享出来罢了。还有一点,作者的HanLP库一直是自己一个人维护的,我看比起那些中国的一堆人写的要好,中国人团体项目都不灵。

我们应该做的,恐怕就是把人家代码好好吸收,好好去看看代码,比起天天搜罗有什么新进展,天天搞什么数据结构强太多了。好好利用人家的代码,来做些完美的实用的应用。别又天天弄个演示代码,给个平均准确率,就完事儿了,这也是写给自己的。后续我要把文本分类的基于HanLP的那个实际小Demo写出来。今年把争取在年底再把分类,词法分析这一部分的基础内容整理成小册,明年我要做自己的中医助手小系统了。面试的同志们,你们问点儿有技术含量的,一张口就知道你是个代码农民工,分词都有哪些方法,怎么实现的,隐马是什么,条件随机场是什么,朴素贝叶斯是什么,问点儿细节。不是在那儿套别人的雕虫小技,就是考个链表,没水平的样子,还有脸贴着要招NLP,还有脸说自己以前是哪哪哪公司的。就这些人的系统,要不就是模型出来啥结果就是啥结果,要不就是雕虫小技,效率且不说,能稳定运行就不错。