1
文本自动标引与自动分类研究
1.3.2.1.1 2.1.1 概述

2.1.1 概述

自动标引包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术[1]

关键词自动提取在文本挖掘领域被称为关键词抽取(Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(Automatic Term Recognition)[2—3],在信息检索领域,就是指自动标引(Automatic Indexing)。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定信息。

由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动摘要、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术[4]

目前大多文档都不具有关键词,同时手工标引费力费时且主观性较强,因此关键词自动标引是一项值得研究的技术[4]