- 杂乱变有序的“魔法”——大正自动分类系统
- 发布时间:2009-06-17
- 近日,大正语言以HNC理论为依托,探索了一条文本分类的新方法,开发出HNC自动分类系统。该系统在分类速度和特征压缩比方面,远远高于其他同类系统,目前已取得计算机软件著作权登记证书。
- 近几年来,随着 Internet的普及和网络技术的不断完善,Internet已经成为了全球最庞大最丰富的信息资源库。与此同时,也导致了Internet上信息的杂乱性和冗余性。自动分类技术随着时代的需求而蓬勃发展了起来。作为一种有效的信息处理方法,自动分类技术将各类信息按照一定的分类体系进行分类整理,从而大大提高了用户搜集情报的效率。
- 自动分类技术是在手工分类技术的基础上发展起来的。传统的信息手工分类技术已经相当成熟,但却不适于对Internet上时刻更新的信息进行处理。因为它不具有实时性,另外查全率和分类的一致性也受到一定的制约。
- 大正针对文本分类的问题,结合现有的分类技术,探索出一条全新的文本分类的新方法,所研发的“HNC自动分类系统”,针对目前文本分类所存在的问题和特点,采用了HNC的语境分析技术。HNC认为语境是听和读在大脑(或计算机)中留下的效应,语境无限语境单元有限。提出了基于自然语言语义理解的分类概念,即通过自然语言理解的方法,让计算机模拟人脑,在“理解”的基础上判断文本的类别,提高了分类的准确度;采用文本语义分类模式,采用机器学习的方法大大提高了分类速度和效果; 将HNC领域作为文本特征,结合现有的分类技术,探索一条文本分类的新方法。通过试验,我们发现,单纯基于领域特征分类方法在分类精度上不如基于词特征的方法,基于词和领域的混合特征则在效果上略有提高;在分类速度和特征压缩比方面,基于领域特征的算法远远高于其它算法,大正HNC自动分类系统将二者融合到一个分类模型下,大大提高了分类效果。