1
文本自动标引与自动分类研究
1.3.2.3 2.3 本章小结

2.3 本章小结

本章分别针对文本挖掘领域中的两个基本任务,即:文本的自动标引与自动分类,调研了国内外相关的研究进行比较全面的综述。在每个任务中,列举了该领域中比较有代表性的研究成果。通过综述可以看出,文本自动标引和自动分类计数日益成熟,并得到广泛的应用。主流的方法是机器学习方法,但利用机器学习方法也存在一系列难以克服的问题,比如数据标注问题。

值得注意的是,随着网络技术的不断发展,新的数据类型的出现(如标签)、数据量的激增,给文本自动标引和分类研究和应用带来新的机遇。另外,以往的研究基本上是考虑单一语言情况下的文本标引和分类。在全球一体化日益加剧的环境下,研究多语言文本的自动标引和自动分类,对提高多语言文本组织与管理效率将发挥重要的作用。