6.9 9. WordNet和WordWeb

9. WordNet和WordWeb

WordNet,是普林斯顿大学的心理学教授乔治•米勒(George A. Miller)于1985年开始领导开发维护的一套英语词汇数据库(English lexical database)。截至2006年,WordNet数据库中大小已经超过12M,包括15万词,总计11.5万个同义集合,含有20.7万个词义条目。这个数据库里的词主要分为四种:名词(nouns)、动词(verbs)、形容词(adjectives)、和副词(adverbs)。数据库的主要结构是以词义(而非以词汇本身为线索)为线索的关系数据库。

1985年这个项目刚刚启动的时候,获得了300万美元的资助。米勒教授后来的职业生涯大多都与WordNet有关。1998年前后,布朗大学(Brown University)的一群教授和学生,用WordNet创建了一个“disambiguator”(用来消除语义分析使所遇到的模棱两可的情况)。以Jeff Stibel为首的这群人聘用米勒教授作为董事会顾问,创建了Simpli搜索引擎。2000年,Simpli被NetZero公司以2350万美元的价格收购。2003年,另外一家基于WordNet技术而创建的公司Applied Semantics(这家公司1998年的时候叫做“Oingo”)被Google以1亿零200万美元的价格收购。而后Google就拥有了今天它赖以生存的AdSence广告业务……

以下是Wikipedia上对该数据库结构的简要描述:

  • Nouns

    • hypernyms: Y is a hypernym of X if every X is a (kind of) Y (canine is a hypernym of dog) (这个相当于中文中所说的“上义词”)

    • hyponyms: Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)(这个相当于中文中所说的“下义词”)

    • coordinate terms: Y is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)

    • holonym: Y is a holonym of X if X is a part of Y (building is a holonym of window)

    • meronym: Y is a meronym of X if Y is a part of X (window is a meronym of building)

  • Verbs

    • hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)

    • troponym: the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)

    • entailment: the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)

    • coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)

  • Adjectives

    • related nouns

    • similar to

    • participle of verb

  • Adverbs

    • root adjectives

对于英语学习者来说,这个数据库并不是很容易直观理解。因为它不是传统意义上的“词典”(dictionary),也非传统意义上的“辞典”(Thesaurus),准确地来说,原本是为了英语自动语义识别而打造的一个巨型词义关联数据库。

网上还能找到一个操作界面非常酷、非常炫的“Thinkmap® Visual Thesaurus”,也是基于WordNet数据库的。

不过,这个TVT除了酷和炫之外,我个人认为对大多数英语学习者来说并不实用,不方便,没效率。