目录

  • 1 什么是“复杂”(Complex)?
    • 1.1 身边的复杂性
    • 1.2 复杂性科学与复杂系统
    • 1.3 复杂性科学的方法论
    • 1.4 NetLogo
    • 1.5 第一章测验
  • 2 动力学(Dynamics)
    • 2.1 什么是“动力学”?
    • 2.2 迭代(Iteration)
    • 2.3 线性(Linear)与非线性(Nolinear)系统
    • 2.4 系统动力学(System Dynamics)
    • 2.5 复杂系统分析视角
    • 2.6 第二章测验
  • 3 分形(Fractal)
    • 3.1 什么是"分形"
    • 3.2 科赫曲线 (Koch curve)
    • 3.3 分数维度 (Fractal Dimension)
    • 3.4 听曼德博讲分形
    • 3.5 第三章测验
  • 4 遗传算法(Genetic Algorithms)
    • 4.1 进化——自然选择的结果
    • 4.2 计算机科学中的进化论
    • 4.3 遗传算法示例
    • 4.4 第四章测验
  • 5 元胞自动机(Cellular automata)
    • 5.1 什么是元胞自动机
    • 5.2 生命游戏(Game of “Life”)
    • 5.3 初等元胞自动机(Elementary cellular automata)
    • 5.4 Wolfram的新科学
    • 5.5 第五章测验
  • 6 生物系统中的自组织模型
    • 6.1 自组织(Self-Organization)
    • 6.2 群游(Flocking and Schooling)
    • 6.3 同步(Synchronization)
    • 6.4 第六章测验
  • 7 社会系统中的合作与自组织
    • 7.1 合作模型(Cooperation)
    • 7.2 囚徒困境(The Prisoner's Dilemma)
    • 7.3 El Farol酒吧问题(El Farol Bar Problem)
    • 7.4 第七章测验
  • 8 网络(Network)
    • 8.1 什么是网络?
    • 8.2 网络科学(The Science of Networks)
    • 8.3 小世界网络(Small World Networks)
    • 8.4 无标度和长尾网络结构(Scale-Free and Long-Tailed Network Structure)
    • 8.5 第八章测验
无标度和长尾网络结构(Scale-Free and Long-Tailed Network Structure)

两个网络的对比

  泊松分布(Poisson Distribution)                      长尾分布(Long-tailed Distribution)        

泊松分布

自然界与社会生活中,群体中许多个体的尺度在某一特征尺度附近,偏离这一尺度越远,个体数量越少。比如说人的身高,如果以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线(如下图的真人秀),我们称之为泊松分布。这一特征尺度用μ表示,当μ较大时,泊松分布的形态接近正态分布(Normal Distribution),区别在于前者是离散分布,后者是连续分布。


长尾分布

对于另一些分布,像收入和人口的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个数量级。以收入或人口数为横坐标,以不低于该收入值或人口数的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线,它与钟形的泊松分布曲线有显著的不同。这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有300多个国家和地区,只有11个国家的人口数超过一亿。

对“长尾”分布研究做出重要贡献的是Zipf和Pareto。

1932年,语言学家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系:

这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”。

19世纪的意大利经济学家帕累托(Pareto)研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系:

上式即为Pareto定律。

对应的两种分布就是Zipf分布和Pareto分布,两者的区别是前者为离散分布后者为连续分布。两者都是显示出明显的“长尾”形态,而“长尾”分布则属于幂律分布(Power-law Distribution)。

幂率分布

Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。对两边取对数,可知lny与lnx满足线性关系,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线。

对于幂率分布   其在正常坐标系和双对数坐标系下的曲线图:







复杂网络中节点的度值k相对于它的概率P(k)满足幂律关系,且幂指数多在大于2小于3的范围内;这一现象是如此的普遍,如此地令人惊叹不已,以至于人们给具有这种性质的网络起了一个特别的名字——无标度网络(Scale-free Network)。这里的无标度是指网络缺乏一个特征度值(或平均度值Scale),即节点度值的波动范围相当大。

在过去的40多年里,科学家们一直想当然地认为现实中的网络都是随机的,随机图论就是专门为了研究随机网络而发展起来的一门数学学科,但无标度特性的发现打破了这种构想。本节第一幅图中,左侧的网络a就是随机网络,右侧的网络b就是无标度网络。

随机网络的度分布是泊松分布,度值比平均值高许多或低许多的节点,都十分罕见,是一种高度“民主”的网络,而无标度网络的度分布则是幂律分布,节点度值相差悬殊,往往可以跨越几个数量级,是一种极端“专制”的网络,二者之间有本质的区别。

无标度网络的生成机制

Barabási与Albert针对复杂网络中普遍存在的幂律分布现象,提出了网络动态演化的BA模型,他们解释,成长性和择优连接性是无标度网络度分布呈现幂律的两个最根本的原因。所谓成长性是指网络节点数的增加,像Internet中自治系统或路由器的添加,以及WWW中网站或网页的增加等。择优连接性是指新加入的节点总是优先选择与度值较高的节点相连,比如,新网站总是优先选择人们经常访问的网站作为超链接。随着时间的演进,网络会逐渐呈现出一种“富者愈富,贫者愈贫”的现象。社会学家所说的“马太效应”,《新约》圣经所说的“凡有的,还要加给他,叫他有余”,同择优连接也有某种相通之处。

需要注意的是,“择优连接”并不适用于所有出现幂律分布的情况,即便是对于某些无标度网络,用它解释幂律的成因也显得很不合理,但这并不影响巴拉巴西对于复杂网络研究的巨大开创性贡献。

参看Netlogo模型库中Networks下的Preferential Attachment模型。


幂律特性的度分布对无标度网络的动力学性质有着极其深刻的影响。以疾病或病毒在网络中的传播这一物理过程为例,以前的基于规则网络及随机网络的研究表明,疾病的传染强度存在一个阈值,只有传染强度大于这个阈值时,疾病才能在网络中长期存在,否则感染人数会呈指数衰减。但对无标度网络上传染病模型的研究结果表明,不存在类似的阈值,只要传染病发生,就将长时间存在下去,这一特性表明,要想在Internet这样的无标度网络上彻底消灭病毒,即使是已知的病毒,也是不可能的。

另外,度分布的幂律特性对网络的容错性和抗攻击能力也有很大的影响,对网络的攻击分为随机攻击和选择性攻击两种类型,分别称为网络的容错能力与抗攻击能力。研究表明,无标度网络具有很强的容错性,但是对基于节点度值的选择性攻击抗攻击能力相当差。比如对万维网或因特网中集散节点的攻击,有可能造成整个网络的瘫痪,对于某些微生物来说,它们体内度值很高的蛋白质通常掌握着细胞的生死。度分布满足泊松分布的随机网络,其容错性和抗攻击能力则是基本相当的。可见,网络的结构稳定性是与网络的度分布特性紧密联系在一起的。

 如果有能力的话,可以啃一下复杂网络领域三位大神合著的这本书: