PHP程序员学习笔记|如何学习PHP

个人总结的PHP学习方法


常用的分词组件

2016-2-7 0phpcom


做互联网系统 分词是必不可少的。除非咱不需要搜索、标签或者关键字分析等。

在网上看到的一个列表,不错,放出来给大家。

BosonNLP:http://bosonnlp.com/dev/center
IKAnalyzer:http://www.oschina.net/p/ikanalyzer
NLPIR:http://ictclas.nlpir.org/docs
SCWS中文分词:http://www.xunsearch.com/scws/docs.php
结巴分词:https://github.com/fxsjy/jieba
盘古分词:http://pangusegment.codeplex.com/
庖丁解牛:https://code.google.com/p/paoding/
搜狗分词:http://www.sogou.com/labs/webservice/
腾讯文智:
http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3
新浪云:http://www.sinacloud.com/doc/sae/python/segment.html

语言云:http://www.ltp-cloud.com/document


还有一个就是:

这里简单点评下:(我简单体验了几个,没有全部用,像搜狗之类的,看下名称我就不想用,想来也不是很好用,不要问为什么)

    如果是为了快速实现功能,而且我们没有太多的二次开发力量,那么我们应该使用REST API 模式的分词接口。直接调用,人家更新我们也自动跟着更新。不过,一旦人家歇菜,我们也跟着歇菜。所以使用REST API风格的分词要做好后手准备。另外,如果你需要有一些个性化功能,是木有的,这就是 “懒”和”笨“的代价。

    REST API接口的大家可以试一下。BosonNLP和新浪云,如果专注中文,那么新浪是比较好的选择。新浪早年的产品,譬如上个世纪90年代,还是很差的。现在的新浪很多产品还是值得学习的。(呀~~~不小心暴露了年龄)

PHP分词

  如果你认为PHP是世界上最好的语言,那么选择SCWS是必须的啦。需要安装扩展,自己可以修改词库,配置也方便。适合于PHP大法传人和有一定二次开发能力的人。如果你能修改源码那就更屌了。

Java分词

  如果你认为其他语言都是玩具,只有java才是宇宙最强的语言。那么你可以使用IKAnalyzer,结合Lucene能实现相对比较完善的搜索系统。

  如果有能力可以看看源码,修改并不是特别复杂。总比看C要简单的多

其他的几个 我就看了看,也没啥兴趣用。

    从性价比来说,我只会选在REST API模式的分词。我认为在我有生之年不太可能”他们死了,我还活着”。另外,分词已经不值得我们这些商业程序员去做深入研究。当然如果你是基础技术建设者另当别论。

« 记录一次微信支付于支付宝支付中关于APP的接口问题 | 不使用CURL的情况下使用底层http 协议»
发表评论:









订阅Rss