语义联想…


传统信息检索中将每个词语当做一个独立的元素,对其分配一个独立的编码进行表示。在这种表示方法下,基于关键词的全文检索能够通过预先建立的数据结构较快的完成。在该种编码方式中,一旦两个词语不相同,其相似度的判定即为0。从语义角度考虑,即便两个词语不完全一样(比如同义词),也应该可以匹配。玻森采用智能学习算法,对海量无标注文本进行处理,从而自动学习词语的相关性,挖掘语义关联词汇。


句法分析…


玻森目前拥有一个百万级别的语义标注本体。包括微博、新闻语料、广播语料和论坛语料四个部分,能有效覆盖常见的词语和语法结构。利用该语料,玻森开发了自己的语法分析器,能自动将一个无结构(或隐含结构的)自然语言文本转化为由不同词性和结构所组成的语法块,从而让计算机对所给自然语言进行理解。该句法分析器为玻森以后的文本聚类,情感分析模块等提供了丰富的训练特征,以帮助线性和非线性的分类器能够准确进行自动文本分类等判断。



分布式爬虫…


玻森拥有一套高可定制化支持任意水平扩展的分布式爬虫系统,可在极短的时间内将任务分发至全球的计算节点,用于抓取网站并从页面中提取结构化信息。该框架透过一系列插件还支持定向主题抓取、智能URL判重、页面更新频率预测和自动任务路由等多项高级功能。该框架同时整合了系统运行状态监测、自动化单元测试等功能以保证任意时刻都能稳定高效地运行。