文本挖掘的基本要素是文本。为了实际应用,文本可以非形式化地定义为个离散数据单元的集合,和现实世界中的文件很相似,例如,商业报告、法律备忘录、电子邮件、研究论文、手稿、新闻稿或小说故事等但是,我们不能由此推断出指定的文本只能存在于一个特定语境中。文本可以是不同文本集合的成员,也可以是相同文本集合的不同子集,甚至可以同时存在于不同的集合中。例如,微软的反垄断诉讼可能存在于不同的文本集合中,它可能是时事新闻、法律新闻,或者软件公司新闻等。
1.结构化文本
结构化文档是满足如下条件的文档:
l 采用抽象概念的形式描述;
l 文档具有严格的结构,且其结构的合法性是可验证的;
l 文档的结构是与其语义的抽象概念相一致的;
l 作为研究对象的文档集或研究子集满足相同的文档结构定义;
l 结构定义在时间上保持稳定。
XML文件是典型的结构化文档。由于XML的规范性、结构化、可扩展性及简洁性,它已成为描述结构化文档的标准通用语言。
不满足结构化文档要求的文档称为非结构化文档。
2.弱结构化或半结构化文本
尽管我们在一定程度上可能认为,文本是非结构化的,但从语言学的观点来看,即使是一篇结构很差的文本也在一定程度上表现出了语义和句法上的结构化,虽然这种结构化不明显,在一定程度上可能隐藏在文本内容里。此外,印刷的元素,例如,标点符号、大小写、数字以及特殊符号,特别是排版时人为的对象,如空格、回车、下划线、星号、表、列等,可以视为一种“软标记”语言,它可以提供线素来帮助识别重要的文本子部件段落、标题、出版日期、作者姓名、表记录、页眉和脚注。字词的顺序对于文本来说也是结构化的一个有意义的方面。非结构化的另外一个极端是用HTML编辑器产生的文本,实际上,HTML.文本包含了用规范化的标注标签形式嵌入的元数据。
有些文本很少通过印刷、排版或标注符号来体现结构,如大多数的科学研究论文、商业报告、法律备忘录和新闻报道,有时称为自由格式的或弱结构化的文本;有些文本具有大量的、一致的格式元素,通过这些元素,可以很容易推断出域类型、元数据,如一些具有严格文本模板或格式限制的电子邮件、HTML网页、PDF文件、字处理文本等,它们偶尔称为弱结构化或半结构化文本。
文本挖掘大致可以定义为一个知识密集型的处理过程,在此过程中,用户使用套分析工具处理文本集。与数据挖掘类似,文本挖掘旨在通过识别和检索令人感兴趣的模式,进而从数据源中抽取有用的信息。但在文本挖掘中,数据源是文本集合,令人感兴趣的模式不是从形式化的数据库记录中发现,而是从文本集合中的非结构化文本数据中发现。
当然,文本挖掘的很多想法和研究方向来源于数据挖掘的研究。由此发现,文本挖掘系统和数据挖掘系统在高层次结构上会表现出许多相似之处。例如,这两种系统都取决于预处理过程、模式发现算法以及表示层元素。此外,文本挖掘在它的核心知识发现操作中采用了很多独特的模式类型,这些模式类型与数据挖掘的核心操作不同。
由于数据挖掘假设数据已采用了结构化的存储格式,因此它的预处理很大程度上集中于两项关键任务:清除数据噪声和规范数据,以及创建大量的连接表。相比之下,文本挖掘系统预处理操作以自然语言文本特征识别和抽取为重点。这些预处理操作负责将存储在文本集合中的非结构化数据转換为更加明确的结构化格式,这点和数据挖掘系统有明显不同。
此外,文本挖掘还借鉴了其他一些致力于自然语言处理的计算机学科,如信息检索、信息抽取、基于语料库的计算语言学等领域的一些技术和方法。

