五、World Wide Web
World Wide Web如何翻译,国内一直没有定论,常见的有万维网、WWW网,也有简称为Web网的。
Web并不是互联网,只是互联网的一个最广泛的应用,和互联网常常混淆。
Web的主要概念是超文本和超媒体,我们在前面已经进行了说明。Web的组成就是无数的带有超链接的超媒体页面,通过Internet对这些页面进行访问,而对页面进行访问的图形化工具就是我们每天在使用的浏览器——Browser。
互联网上Web所承载的信息量和在网络上的数据量都是最大的。
(一)网站与页面
网站的英文名是Web Site,Site的意思是站点、地点。如何理解Web Site呢?我们可以先给出下面的定义:
Web Site是按照一定的结构和方式组织起来的信息、超链和数据的集合,是World Wide Web的组成节点。
其实,这个词汇的英文含义非常清楚:全球网的站点。
随着技术的发展,网站的含义已经有了非常大的变化,信息和数据的表现形式被称为服务。
服务(Service),是一个非常时尚和准确的概念。
正如前面对超文本的描述,一个超文本系统有三个要素:节点、连接节点的信息链、由节点和链组成的网络。
在Web Site中,信息节点是由文本格式的文件组成的,被称为页面(Web Page)。
(二)网页-Web Page
互联网包含了无数的页面,每个页面包括了文本、图像、视频、音频等丰富多彩的信息,如何理解我们经常提到的“页面”呢?
从使用者的角度来看,页面是Web的基本单元,就像一本书的页面一样。把要表达的信息按照页面的形式组织起来,这是超文本(Hypertext)的最根本的含义,与传统文本的区别是超链(Hyperlink)。
页面是由HTML写成的,每个页面包括一个基本的框架。
1.HTTP与URL
HTTP(Hypertext Transfer Protocol,超文本传输协议)。当你要访问互联网的一个页面的时候,利用HTTP协议,向服务器提出申请,服务器根据HTTP的要求,把指定的页面传回你的计算机,由浏览器进行解释,显示出该页面的内容。
HTTP是用于浏览器与Web服务器进行通信的协议。
利用HTTP协议访问电子科技大学网站的过程如图3-6所示。
在网站中,每一个Web页面被分配了一个唯一的标识,这个标识被称为URL(Uniform Resource Locator,统一资源定位器或者定位符)。

图3-6 访问网站的过程示意图
URL最初被称作URI(Universal Resource Identifier,通用资源识别器),后来改称URL。URL可以翻译为统一资源定位器(Uniform Resource Locator)。事实上,URL是一种地址记录的标准格式。URL可以读作“earl”,当然,国内更习惯于读作“U-R-L”。
URL的最大优势是其通用性,典型的URL结构类似于一种树型结构:
Service://<user>:<password>@<host>:<port>/<folder1>/.../<fol der-n>/<page-n.html>
典型的URL格式如下所示:
Web页面
http://www.uestc.edu.cn/index.html
FTP
ftp://ftp.uestc.edu.cn/file01.doc
E-mail
mailto:user01@host
Usenet
news://user.password@host:port/newsgroup
Telnet
telnet://user:password@host:port/
Gopher
Gopher://uestc.edu.cn/pub/doc.txt
实际上,URL类似于计算机中的路径结构,域名表示计算机,文件夹代表文件路径,页面代表文件。
下面的例子使用HTTP协议访问电子科技大学网站首页:
http://www.uestc.edu.cn
这个例子实际是下面形式的缩写:
http://www.uestc.edu.cn:80/default.htm
没错,缩写形式保证是有效的。
一个典型的HTTP协议跟随URL是下面的形式:
http://hostname[:port]/path
port代表端口号,端口号标识的是协议提供的服务。
2.HTML
HTML(Hypertext Markup Language)直译为超文本标注语言。
1969年,当ARPANET被发明出来的时候,查尔斯·高德法伯和爱德华特·默舍尔等人发明了GML(Generalized Markup Language,规范化标注语言)。开发GML的目的是为了在大型的信息系统中进行文本管理。
1980年,美国国家标准署(the American National Standards Institute,ANSI)基于GML发布了一个标准GML的草案,称为SGML。该草案最终成为了ISO8879-1986,正式的国际标准。
几年以后,另外一个在CERN工作的科学家蒂姆·伯纳斯·李,作为其对互联网发展的主要技术,发明了HTML,超文本标注语言。
事实上蒂姆从来没有想到HTML会有如此广泛的用途并被用于多媒体的表达。他的最初目的只是用于表示范围较广的文档自身。
1994年5月召开的WWW的国际会议上,确定了HTML的主要框架,包括表、图像和数学符号等内容。HTML再也不仅仅是一个学术工作。
HTML在最早进行设计的时候就尽量简单,这也是它得以非常流行的一个重要原因。事实上,很快人们就发现HTML不是一种程序员的语言。发展到现在,使用一些简单的HTML编著工具,我们根本不需要知道那些标注符号就可以完成页面的设计工作。
每个HTML标注用尖括号表示,类似于下面的结构:
<tag>标注的内容</tag>
假如我们希望在页面显示以下的内容:
今天天气非常好!
注意需要“非常”两个字以黑体显示,用HTML写成以下形式:
今天天气<b>非常</b>好!
在浏览器对页面进行解释的时候,就能够显示出我们所需要的效果。
3.HTML文档基本结构
一个HTML文档应该包括三个部分:
版本信息
版本信息实际上是文档类型的声明,称为DTD。
HEAD,主要表示文档的标题。
BODY,HTML文档中的所有内容属于BODY。
下面这个例子是HTML文档的一个基本框架。
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<HTML>
<HEAD>
<TITLE>用于演示HTML框架的文档</TITLE>
</HEAD>
<BODY>
在此输入文档的内容。
</BODY>
</HTML>
4.HTML元素
元素(Elements)和标签(Tag)怎么区别,实际上W3C在HTML标准中很容易混乱。
元素用于定义文档结构、外观、超链等。当把这些元素插入文本中时,用尖括号括起来,此时称为标签(或标记)。
HTML中的元素包括三个部分:开始标记、内容和结束标记。正如我们在前面所举出的例子:
<tag>标注的内容</tag>
<tag>是开始标记,</tag>是结束标记。当浏览器看到开始标记的时候,就知道后面的内容是开始标记所定义的类型,直到找到结束标记。开始标记和结束标记一般是成对出现,但是有些可以没有结束标记,比如<BR>表示换行。当浏览器看到<BR>时就会把后面的内容换一行显示。
在HTML中还有一个概念——嵌套(nesting)也是非常重要的。嵌套的意思是在某些元素内又放入其他元素,也就是说在一个开始标记和结束标记之间还可以放入其他的开始标记和结束标记,但是切记,除了某些特殊的标记,一定要成对出现。
下面的内容可以在任意一个文本编辑器中编辑,然后保存为HTML文档(扩展名是HTM即可),用浏览器打开的效果如图3-7所示。
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<HTML>
<HEAD>
<Title>HTML实验</Title>
</HEAD>
<BODY>
<H3>字体<H1><I>演示</I></H1>效果</H3>
</BODY>
</HTML>

图3-7 嵌套效果示意图