【看中国2023年7月31日讯】一个半个月前,AMD的苏姿丰发布了新款大语言模型GPU MI300X,据说比Nvidia的H100更小更快。
说起来,美国朋友追求又小又快已经很多年了。
最近,浙江人民出版社的朋友寄给我一本《芯片战争》,说你看看。我说我看过英文版,总是打开又合上,合上又打开。他说你是看不懂英文吗?看不起谁呢,my English is fine thank you, and you?
中文版的《芯片战争》翻译的不错,作者用一个个芯片发展史上的历史故事告诉读者,为什么靠砸钱和堆人搞不出芯片产业。因为整个行业的分工极为细密,背后是一个极其复杂的商业生态系统,这个系统不可能源于任何政府扶持,也不可能有任何国家做到全产业链独立自主,它依靠的是企业家们像生物演化一样的:自行冒险和优胜劣汰。
中国人是不缺优胜劣汰的,缺不缺冒险精神,网上一直争论不休。要说不缺吧,考公的人是越来越多,要说缺吧,ChatGPT大火之后的短短几个月内,国内光是上市公司就有9个老板说自己要搞大模型后随即离婚的,导致原本就不富裕的存量夫妻数量因此“雪上加霜”。
最重要的是,你看AI芯片最核心的三个大拿黄仁勋、苏姿丰和张忠谋都是华裔。再具体一点,他们都是胡建(福建)裔。
一
自从几万年前人类征服了蓝色星球之后,仰望星空后的好奇促使大家做了一个违反祖宗的决定——暴露自己,不顾黑暗森林法则。至于为什么这么做,千百年来从哲学家到科学家做过很多解释。觉得,主要是因为太过孤独。
为了对抗集体孤独感,除了寻找地球之外的智慧生命,还有就是试图给自己之外的东西注入神性。
从远古神话里出现的黄金机器人到雪莱的《科学怪人》,从亚里士多德的三段论逻辑到微积分发明人莱布尼兹试图设计一种普适性语言,经历了几千年的探索,即便在计算机技术不断进步后,人类还经历了无数次挫败。
具体到怎么让机器人和人自然对话甚至完成交办的任务这方面,直到2017年,谷歌的一篇论文《Attention is all you need》,才算是真正打开了局面。这篇论文看起来很简洁,主要就是讲Transformer(翻译器)是怎么工作的,这个Transformer就是ChatGPT里的T。
有了可以验证的理论,大家就把大语言模型的训练实现基本简化为了两个要素:语料和算力。简单来说,先要有足够多的文字内容,然后要规划学习方法,比如自己学习,工程师监督学习和用户反馈后的强化学习。看起来和人类学习过程差不多,但机器学习是可以开挂的,想让它加快学习过程,就要上算力,大幅提升训练速度。比如,为了训练ChatGPT-3,微软给OpenAI配了10000张A100显卡,单次训练成本上千万美元,这个我们中国人理解起来一点也不难。想让孩子上清北吗?从小学开始就要择校,吃好的用好的还要报各种班。
去年底ChatGPT大火之前,连搞AI的人自己都在怀疑自己。阿里云在去年降价了6次,GPU租用价格下降了两成,腾讯也直接砍掉了对NVIDIA GPU的采购单。然后,ChatGPT火了,大家纷纷宣布我也行,我也能上。最夸张的是很善于做全家桶的周总(周鸿祎),他说:“比尔·盖茨都没我看得准。”
20多年前,从亚马逊诞生到阿里巴巴诞生,大概用了5年;从有ICQ到腾讯有OICQ,大概用了两年;从谷歌诞生到百度诞生,大概用了15个月。从ChatGPT大火到“比尔·盖茨都没我看得准”用了多久呢?——一个季度。
大家树新风的样子,像极了在大集上喝早酒的山东朋友。一开始,镜头前的本地大哥都是配着羊汤喝瓶啤酒或者二两白酒。后来,出现了一碗羊汤配一斤散篓子的大妈和两斤散篓子的大爷。到最后,有个大哥抱了一桶十斤装的白酒告诉拍摄者:这是我一天的量。
只有少数还没上头的。媒体问字节副总裁杨震原有没有开发大模型,杨震原会说我们在学习。被问到大模型进展怎么样,他说很初级、不成熟。
腾讯也是一贯的务实风格。马化腾说对于工业革命来讲,早一个月把电灯泡拿出来,在长的时间跨度上来看是不那么重要的。关键还是要把底层的算法、算力和数据扎扎实实做好,而且更关键的是场景落地,目前我们还在做一些思考。我感觉现在有很多公司太急了,感觉是为了提振股价。
你就直接报周总(周鸿祎)身份证号得了。
二
6月26日,锂电池的发明者古迪纳夫去世,享年100岁。3年前,他以97岁高龄成为了诺贝尔奖历史上最年长的得主。
在看讣告时,笔者读到了他的一句话——我们有些人就像是乌龟,走得慢,一路挣扎,到了而立之年还找不到出路。但乌龟知道,他必须走下去。
华人特别喜欢歌颂速度。苏姿丰30岁时凭借设计铜电路替代铝电路成为了IBM CEO的技术助理;黄仁勋30岁时和两位工程师一起创立了NVIDIA。底层文化里,华人是不可能称赞乌龟的,大家称赞的都是“高大全快”。
相反,德日甚至瑞典的一些企业可能产品看起来一点不起眼,一个轴承,一颗螺丝甚至一个锉刀,一捆绝缘线能钻研一辈子,但全世界工业企业都离不开他们。当经济高速发展时,他们把自己投入大生态顺势而为,当经济进入下行周期的时候,这些企业靠着专精能力,活得也很舒服。
这种跨越周期的能力,大概就是古迪纳夫说的“乌龟”吧。
现在,习惯了快的我们也慢下来了,笔者觉得大伙面对大模型这种时代巨浪还是要有些定力,如果搞不起军备竞赛,雇不起大量的北大应届生,那还是先冷静冷静,想想大模型对自己有啥用,算清楚ROI。如果用大模型比雇人干活还要贵,还不如多招些人,也是为就业做贡献了。
这样对很多企业来说是最划算和安全的,风浪越大鱼越贵是没错,但首先要保证自己一直在船上。