第十七章
缘分
斯蒂芬·巴拉班向贝蒂·孟求婚的那天,天空中划过一条巨大的钻石项链。那是上天对他们的祝福。4年前在帕洛阿尔托学府大道上的奥伦鹰嘴豆泥店,他第一次见到了她。当时她正走进这家顾客熙来攘往的美食店。2017年8月21日的早晨,他们俩在俄勒冈州的马德拉斯市,当天的日全食带大约是一段70英里的路段,这里是观看的最佳路径。
星星出现在天空中,日食之风使空气变冷。白日里的黑暗2分零4秒之后才消失。诡异的阴影带依然在地面上游移。此时正好是上午10点29分,太阳发出了返回的信号。众人期待的阳光从月亮后面钻了出来,斯蒂芬向他的女朋友献上晶莹剔透的钻石戒指,依旧心有余悸的贝蒂回答说“愿意”。
正如彼得·蒂尔在《从0到1:开启商业与未来的秘密》一书中写到的那样:“每一个伟大的企业家首先是一个设计师……但这些设计并不总能在首次尝试的时候就奏效。”[1]买那枚钻石戒指的时候巴拉班正在经历一场突如其来的伟大成功:在谷歌和亚马逊的游戏主场上击败了谷歌和亚马逊。这样的商业成功不仅别人觉得不可思议,就连他自己也觉得出乎意料。在这场大功告成的求婚到来之前,有一场关于深度学习的考验等着他。
巴拉班能说一口流利的普通话。他本来是密歇根大学计算机科学和经济学系的大四学生。2010年他决定休学一个学期来到了北京。在中国,他帮助建立了美国Y-C创业加速器的中国“克隆”版。他用“缘分”来命名这个项目。“缘分”是中国人的命运观念,中国人认为是“缘分”把人们凝聚在一起。最终,他眼睁睁地看着这家公司因创始人之间的冲突而破产。这也成为他的人生阅历中的重要一课。
从北京回到密歇根大学后,他获得了学位,并前往硅谷。“真正的交易”才刚刚开始。他搬到旧金山历史悠久的唐人街里的一个房间,房间里有他自己的洗漱池,楼下还有一间共用的浴室。2012年4月,巴拉班创办了一家公司,主要致力于教会机器去看和学,并专注于移动设备的人脸识别功能。他给自己的公司取的不是中文名字,而是一个希腊语的名字——兰姆达实验室(Lambda Lab)。为的是纪念图灵机器的美国版本,阿隆佐·丘奇的通用计算模型。
众所周知,从2012年开始人脸识别技术在手机上的运用如火如荼,但是却没有谁能够将其设计得足够紧凑并保证速度。巴拉班的工作引起了知觉公司(Perceptio Corporation)的学术大师扎克·斯通和尼古拉斯·平托的注意。2016年11月,他们聘请巴拉班为苹果手机开发移动人脸识别技术。
和当时所有的其他项目一样,这个项目也是基于深度的神经网络处理。巴拉班解释说,所谓机器学习,“是指在移动设备的图形处理单元和其他神经网络上运行人脸识别,而不需上传至网络。”他认为人工智能并不需要在巨大的数据仓库中进行。这可以称得上是与那些蒂尔奖学金获得者的观点恰好相反的洞见。到2013年年中的时候,他已经有过与两位奖学金获得者生活在一起的经历了。他们是奥斯汀·拉塞尔和托马斯·索莫斯。但他花了好几年时间才终于将自己的观点转化为资本。“事实上,我过去也一直都在学习深度学习。”
2013年11月他辞职离开了知觉公司。两年后,扎克·斯通和尼古拉斯·平托以2亿美元的价格将该公司卖给了苹果公司,它的人脸识别功能现在是新款苹果手机的标准功能。与此同时,巴拉班从一家提供本地化信息和服务的公司NextDoor公司,挖来了自己的孪生兄弟迈克尔,请他做兰姆达实验室的首席技术官。迈克尔似乎也完美地分享了双胞胎哥哥时运不济的特点。2015年,NextDoor公司已经成长为价值超过10亿美元的“独角兽”企业。
巴拉班兄弟二人致力于硬件的研究,利用便携式人工智能和人脸识别技术,他们设计了一款类似于谷歌眼镜或色拉布(Snapchat)眼镜的嵌入棒球帽的可穿戴摄像头。可是问题在于,在硅谷没有人能够制造出“兰姆达帽”(Lambda Hat)的原型。于是斯蒂芬回到中国,花了6个月的时间探索与香港隔河相望的深圳,那里简直就是制造业的大蜂巢。最后,他戴上了一顶酷酷的帽子,说着一口更加流畅的普通话回来了。伴随他一起回来的还有一条更加陡峭的销售曲线,无法制造,也无人问津这个产品。“这项技术还不成熟。”斯蒂芬终于明白了这个事实。
尽管失望,但他仍然不想做“不属于我的东西”。2015年年初英特尔公司的机器人技术先锋,曾极大地促进了计算机视觉发展的加里·布拉德斯基成立了“柳树车库(Willow Garage)”机器人技术孵化器。《连线》杂志的凯文·凯利相信“机器人也有需求”,进而创建了工业知觉公司,并生产了一款“装卸机器人”。巴拉班发现,这种机器人能够“如此优雅地拿起并抛出盒子”。谷歌买下了这些技术。就是这位加里·布拉德斯基邀请巴拉班加入他的深度学习团队“神奇跳跃(Magic Leap)”。这个2010年募资5亿美元在佛罗里达成立的虚拟现实公司,得到了谷歌的资助。该公司登上全国性杂志封面的次数比其在虚拟现实领域的进展要多很多。当时尼尔·斯蒂芬森作为首席未来学家,也刚刚加入这家公司。尽管神奇无限并且资金充裕,但巴拉班还是心存疑虑。
那么,到底要跳往哪个方向呢?
2015年7月的阿瑟顿市,斯蒂芬·巴拉班、奥斯汀·拉塞尔和托马斯·索莫斯住过的房子最终以1000万美元的价格售出。与此同时,索莫斯引起了著名的蒂尔基金创始人的注意。蒂尔拿出200万美元,委托中国台湾半导体制造公司生产并推出了索莫斯的新款芯片。而拉塞尔的“秘密”无人驾驶汽车项目小马足迹(Pony Tracks),也获得了来自蒂尔、1517基金以及众多其他投资人的风险投资,大笔资金滚滚而来。巴拉班也找到了一个意想不到的方向。
维塔利克·布特林的高中朋友,当时正在谷歌大脑公司实习的克里斯·奥拉打败了巴拉班,获得了当年的蒂尔奖学金。奥拉和谷歌的另两位工程师一起贴出了一篇博客文章,标题是《感知主义:深入神经网络》。[2]
这个标题本身可以做多角度的解读:可以是指他们正在使用的神经网络架构。这个架构又参考了关于一个名为“走得更深”的网络内模因,而这个模因又引用了2010年克里斯托弗·诺兰导演的电影《盗梦空间》中的一句话。在这部电影中,一个小偷透过一些管道偷偷地潜入别人的梦境。这篇博文简短地介绍了“一些可以窥视这些神经网络内部的技术”,接着还展示了一系列越来越迷幻的照片,看上去就好像这台机器正在产生幻觉一样。一只灰色的小猫咪变成了噩梦:一只毛茸茸的野兽,长长的大嘴、腿上还长着好几只黑色的狗眼和好几只鼻子。
巴拉班知道,这段代码和其结果所表达的意义。这是对蒙特利尔人工智能领域的双雄杰弗里·辛顿和约舒亚·本乔所提出的“多种学习假说”的视觉性总结。本乔将神经网络的基本工作看作一个具有层次结构的学习过程。每个新层次都是由前一层的解析所构建。机器从原始像素开始,将它们组合成从黑暗到光明的线条和曲线,然后再转换成几何形状,最终就可以编码成人脸或其他目标图像的元素。在这个过程的开始阶段,你会得到一个奇妙而扭曲的画面,一旦进入更高的层次,就会得到“梦和噩梦”的幻象。这一切皆如本乔所言,就像在机器学习的反馈循环中一样,梦境和噩梦阶段并没有感知到新的信息。如果没有新的输入,大脑或机器就会以有趣但无解的模式循环搅动旧图像。[3]
数以百计的人被奥拉的帖子所吸引,巴拉班就是其中之一。谷歌发布了代号为“深梦(Deep Dream)”的代码。程序员们都迫不及待地想要一探自己的梦中形象。
巴拉班决意要为普通人开发一款基于深度学习的图像编辑器。他在一个简单的网站上为大家提供各种过滤器,其中大多数的名字都是从艺术(如“木炭”“装饰艺术”)或迷幻亚文化(如“鼠尾草”“自我转化的机器精灵”)中提取而来。
2015年“火人节”开始前的两个月,名为“burners.me”的网站发现了巴拉班开发的名为“梦想镜”(Dreamscope)应用程序,以及他发表的博客文章,文章的索引指向菲利普·迪克所著的非现实小说《银翼杀手》。接下来是13张充满梦幻色彩的火人照片,照片中是充满了迷幻的眼睛和毛茸茸的有如雨后春笋般出现的狗脸,这些图片融合了人类的幻想和反复出现的旋涡。[4]
这款名为“梦想镜”的应用“流行起来的速度比我所见到的任何应用都要快……第一天就有数百万的下载量。这是人们第一次真正了解神经网络是如何看待世界的”。
巴拉班兄弟很快就想明白了该如何支持这近100万的用户。他们的方法就是让每个人都能运行自己的小型机器学习的进度和编辑器。这个时候的兰姆达实验室还只有巴拉班双胞胎兄弟和他们的表弟一共3个人。通过对分布式队列处理系统进行扩展,“它允许我们根据需要向池中添加新的节点”。缺点在于要使用图形处理器就必须向亚马逊网络服务付费。
斯蒂芬·巴拉班选择采用谷歌模式,即免费赠送产品并收取“优质”订阅费用。问题是他的大多数“顾客”都认为,免费获得的那些迷幻般的照片已经足够好了。9.95美元的“精品版”吸引了10万名买家,但仅仅100万美元还远远不够。
没过几个月,梦想镜项目就几乎因为太成功而消亡。亚马逊网络服务的费用增加到每月4万美元,而梦想镜公司的银行存款只剩下区区15万美元,又到了山穷水尽的境地。就像亚历山德拉·沃尔夫在她的励志小说《诸神之谷》中所写的那样,不管他们的世界体系是多么完美无缺,并非所有的项目都会繁荣昌盛。
“大多数初创公司都熬不到这么久。”斯蒂芬说。正如丹妮尔·斯特拉克曼所强调的那样,这个时候正是创业社区力量发挥作用的时刻。巴拉班清楚地记得当他第一次遇到斯特拉克曼和迈克·吉布森时的情景。他对他们怀着深深的感激之情,“迈克和丹妮尔看到了创立一家公司的情感因素,这是很多人往往会忽视掉的内容,那简直就是一辆让人心力交瘁的过山车。我意识到他们非常在意团队中的每个人是不是都能相互支持。用埃隆·马斯克的话来说,就是盯着深渊,嚼着玻璃。”
面对不断增加的亚马逊网络服务账单,巴拉班重新找到了1517基金,迈克和丹妮尔为他提供了15万美元赞助,这为公司赢得了四五个月时间,然而这依然不够。奥斯汀·拉塞尔投资了2万美元,后来又追加了10万美元;“神奇跳跃”的加里·布拉德斯基也投了同样数目的资金。巴拉班总算筹集到了50万美元。
从那一刻起,他本能地抗拒向亚马逊输送更多的资金,实在是做不到啊!这就是一个“从0到1”的时刻。这也打破了硅谷最稳定的共识——风险资本家都认为,初创公司想要通过自建基础设施与亚马逊和谷歌竞争,简直无异于自寻死路。这一共识得到了过去10年最成功的两家公司——网飞(Netflix)和图片墙(Instagram)的有力证明。这两家公司都通过使用亚马逊网络服务,赢得高达数十亿美元的估值。有人告诉巴拉班:“不要计较成本,只管请求亚马逊扩大服务器的规模。你只需要关注用户,扩展业务就好了。”
然而,巴拉班却决定立即停止使用亚马逊网络服务。或许是受托马斯·索莫斯观点的影响,他花了6万美元从零开始建造自己的服务器。索莫斯认为,当今的服务器都是拼凑而成的,它们将98%的能量浪费在连接到内存和内存之间的数据传输上,或者浪费在“等待状态”中。巴拉班认为自己为“等待状态”花费了太多的时间和金钱。肯定有一种更好的方法,胜过向亚马逊的图形处理器发送动辄几兆字节的数据。“把它们存放到磁盘上,然后请联邦快递寄送过去,一定会更快更便宜。”他总结道。
在巴拉班看来,精心设计的亚马逊系统其极致的性能主要体现在英伟达公司的顶级“机器学习”特斯拉图形处理器(Tesla GPUS),英伟达的游戏芯片不仅比亚马逊的便宜10倍,而且速度也更快。对巴拉班的机器学习算法来说,重要的不是所有自定义的机器学习特性,而是每1美元可用浮点运算的数量。正如比尔·达利在英伟达公司所展示的那样,机器学习本质上是摩尔定律在处理速度和并行化方面进步的产物。如果在手机上可以实现的话,何必要送到达尔斯去呢?
巴拉班决心将每1美元的可用价值最大化。这意味着他的公司既不会再使用达利所说的英伟达的骄傲,也不再使用谷歌的乌尔斯·霍尔泽勒视若珍宝的张量处理单元,而是使用游戏机器精视(GeForce)处理器。
英伟达的代表试图吓唬他,说游戏芯片“不是为数据中心设计,不能依赖它们来处理机器学习的任务”。还说他们不支持这么做。这就是硅谷所谓“FUD”策略——恐惧(fear)、不确定性(uncertainty)和怀疑(doubt)。这和10年前英伟达生产出廉价替代设备的时候,IBM这样的老牌生产商的做法如出一辙。
巴拉班一直在关注自己公司每1美元的失败指数。经过计算,他发现高端市场的特斯拉芯片售价约为5000美元,但浮点32性能的芯片只可实现10.6亿次浮点运算,而这款精视(GeForce GTX 1080 TI)游戏芯片能产生11.3万亿次浮点运算,每模块售价只需580美元,二者相差犹如天壤。在巴拉班的“每一美元浮点数”的模型中,游戏芯片是原来芯片的24倍。
但是巴拉班失望地发现,英伟达并没有将精视图形处理器板块以他的服务器群组所需的极小数量进行出售,这看起来简直就像是在“表演终结者游戏”。他回忆起与奥斯汀·拉塞尔讨论过的关于为密码挖掘构建图形处理器集群的内容。
显而易见的解决之道是“去弗莱斯电子大卖场购买一切”,这是硅谷主要的电子产品零售连锁店,销售索泰(Zotac)和华硕(Asus)在中国台湾生产的电路板。兰姆达团队剔除了湾区1080 Tis处理器的供应,以防给那些需要为自己的服务器提供模块加密采集器的人带来了任何危机。
2016年1月,拉塞尔邀请兰姆达团队搬到小马足迹牧场来,将他们安顿在游泳池后面的车库里,并让他们免费使用那个地方,只需要支付他们自己的电费就可以了。巴拉班和他的团队使用带有图形处理器集群的游戏主板从底层开始构建服务器,他们在24千瓦的电线上安装了自己的100安培分线盒。
2016年2月13日凌晨4点27分,他们使用GTX 980 TI Maxwell体系结构启动并运行了第一个服务器。最高的计算速率是5.63万亿次浮点运算。每台机器有4个模块,总共225.2万亿次浮点运算。这使他们成为拥有了近1/4000万亿次浮点运算集群的世界顶级超级计算机。
在对巴拉班的进步感兴趣的人群当中,有硅谷的巨头乔治·哈里克,他和巴拉班一样,也曾在密歇根大学学习计算机科学,后来开发出了谷歌的关键字广告程序。哈里克说:“我不知道梦想镜会如何发展,但是如果你们擅长Linux系统管理,可以做的就是图形处理器云服务。”谷歌排名第十的员工建议他们在云服务方面与谷歌开展竞争,这真是个有意思的想法。
巴拉班和他的团队已经学会了如何将机器上的浮点运算最大化,最直接的效果就是再也不用支付亚马逊的账单了。6周后,这笔6.6万美元的投资获得了回报,也让梦想镜项目大获成功。他们的团队也得到了壮大:斯蒂芬和他的兄弟迈克尔、利用神经网络将照片转化为绘画的首席专家李昌勋、从伯克利大学的软件工程博士项目辍学而来的史蒂夫·克拉克森。
到2016年12月,梦想镜的货币化计划已初见成效——他们拥有许多狂热的用户,通过数百万的下载量,每月的收入约为5000美元。如果有更多的资金和更长的跑道,它很可能会成长为一个有利可图的产品。
但是巴拉班决定降低在梦想镜上的投资,转而进入计算机基础设施市场。他会像迈克尔·戴尔早年那样,靠卖机箱为生吗?巴拉班把家族成员纷纷拉进来,还从达特茅斯学院挖来了杰克逊·森格尔。他是巴拉班的高中同学,也是一位生物工程博士,熟知核糖体可以制造体内所有的蛋白质。为什么不能打破硅谷定下的那些规范呢?正如2014年彼得·蒂尔对同事们说的那样:“做一些在别人看来都认为很愚蠢的事情”。为什么不直接销售自己生产的电脑呢?
他们开始动手分步骤将零件组装在一起,披星戴月、不眠不休。由于在图形处理器方面的巨大优势,每个模块的成本仅为580美元,也就不必使用特别高效的装配。他们的产品就是一个图形处理器工作站,包含4个英伟达生产的图形处理器精视游戏模块,兰姆达的售价是每台1万美元。如果你想用他们生产的计算机为你提供云服务,那么每台售价2.5万美元。
他们把产品放在自己的实验室网站上,也放在亚马逊上售卖。“不是使用亚马逊网络服务,”巴拉班强调说,“只是借亚马逊网站销售而已。”产品取名为“深度学习进步主机(Deep Learning DevBox)”,其中“Dev”是“development”一词的缩写。得知他们使用谷歌关键字广告做推广,乔治·哈里克一定很高兴。
2017年3月,DevBoxes一上市就给公司带来了2.5万美元的收入,这足足是梦想镜的5倍之多,真是太了不起了!4月,DevBoxes销售收入为7.5万美元,是梦想镜的15倍。5月,DevBoxes的销售收入为13.5万美元。8月,日食奇观之日求婚也大获成功。到了11月,DevBoxes的销售收入已近50万美元。他们准备推出数据中心业务,该业务将首先经由梦想镜测试,巴拉班说:“这将在公司的云服务上进行先行测试。”
哈里克认为,他们可以从事图形处理器深度学习集群的Linux管理员业务。另一位前谷歌的员工也激励了巴拉班,肯·帕契特是谷歌绿色数据亚洲中心的创建人,后来又转而为脸书创建了数据中心。他向巴拉班解释了数据中心超额成本的来源——每周7天每天24小时全时段的可靠性、冗余和电池备份、各种昂贵的碳抵消能源替代品、所有的高端专用集成电路(ASICS)以及空调费用。
或许遍布世界各地,体积巨大的谷歌数据城堡所提供服务的效率(浮点运算数量/瓦)和费用(浮点运算数量/美元),正在变得越来越差强人意。搜索对谷歌来说早已不在话下,但新的贝尔定律制度即将形成——一个分散化的新时代,手机上的人脸识别,汽车上和移动终端上的数据中心。诸如此类的一切驱散了云(clouds),开启了“云天计算(sky computing)”的新时代。
注解:
[1] 彼得·蒂尔,布莱克·马斯特斯:《从0到1:开启商业与未来的秘密》,纽约:皇冠商业出版社,2014年版,第75页。
[2] 亚历山大·莫尔登维切夫,克里斯托弗·奥拉,麦克·蒂卡:“感知主义(Inceptionism):进入神经网络”,谷歌研究博客,2015年6月17日。https://research.googleblog.com/2015/06/inceptionism-going-deeper-intoneural.html。
[3] 史蒂文·利维:“内心深处的梦想:谷歌逼疯计算机之道”,《连线》,2015年12月11日。https://www.wired.com/2015/12/insidedeep-dreams-how-google-made-its-computers-go-crazy/。
[4] 火人×××:“如何制作自己的梦想镜(Dreamscope)人工智能图像”,2015年7月16日。https://burners.me/tag/dreamscope/。