1
文本自动标引与自动分类研究
1.3.1.2.1 1.2.1 文本挖掘

1.2.1 文本挖掘

img1

图1-1 文本挖掘任务框架

如图1-1所示,文本挖掘任务框架中主要包括文本数据处理、文本信息提取、文本分类与聚类等任务,其中文本分类和文本聚类是文本挖掘中的关键任务之一。文本过滤是文本分类的特殊形式之一,一般为二值分类。文本的自动标引结果除了可以为科技文献提供关键词元数据项、为网络或者博客内容提供标签(Tag)之外,还可以作为文本分类和聚类的基础。文本的第三部分就是在文本自动标引的基础上,根据事先构造的分类知识库,完成文本的自动分类[4]。将文本的自动标引的结果作为文本的特征表示,以此为基础进行文档相似度的计算,可进一步完成文本的聚类[5—7]。因此,文本的自动标引和自动分类这两个关键技术在文本挖掘任务中具有重要的理论研究价值。