周伯文：未知与先觉丨AI·20人

经济观察报关注 2023-08-11 19:56

经济观察报记者钱玉娟

在美国互联网公司Meta于7月18日推出最新一代开源大模型LLama2后，第二天一大早六点多，周伯文就发来一条语音：“我相信接下来一波垂类模型的应用活跃度和场景应用会大大加速”。

这是刚刚结束和他的采访之后的第三天。从我们的对话来看，他1.75倍的语速、18小时的工作时间、思维敏捷,组成了我们对于这位资深的人工智能专家和新晋的AI创业者看到的第一印象。

14岁跳级从少年班考入中国科学技术大学的周伯文，一直是人群中那个先觉者。人工智能领域的从业者们多多少少都听说过他的名字。周伯文曾在美国IBM总部担任人工智能基础研究院院长、Watson集团首席科学家，后来曾在京东担任技术委员会主席、云与AI总裁。他现在也是清华教授。

2016年，作为科学家的周伯文带领团队提出了“自注意力机制”“多头思维”等概念；一年后，Google研究者撰写的论文中将他提出的概念加以引用、吸收，加上位置编码，诞生了在自然语言、图模型和表征学习方面的范式Transformer架构。

而ChatGPT得以出现在人类面前，其关键技术基础正是Transformer架构。当前者红得发紫，后者则被视为背后那个真正的隐藏“大佬”，而周伯文团队提出的多头自注意力机制，构成了这位“大佬”的思维内核。

现在，周伯文的身份还加上了创业者——2021年末，他在北京创立了衔远科技，聚焦生成式AI的产业应用落地，当时这个赛道一片寂静。

一年多后，ChatGPT带来的新一轮生成式AI浪潮涌来，国内大厂的顶尖科学家们和商业部门立刻如临大敌。2023年春节后，很多投资人蜂拥而至来了解衔远，在佩服衔远在生成式人工智能产业化先觉的同时，也有一些国内外的AI投资人感到诧异， “以你的背景，这不是把事做小了吗？为什么不做通用大模型呢？”

但在听取周伯文的技术商业化闭环论述后，投资人开始逐渐呈现出认同。

几个月过去了，创投圈推演多时得出的结论是：与场景应用深度融合的大模型符合实际，也更有前景。

大与小

衔远科技的办公室位于海淀区最核心的中关村地段，这里以聚集了像清华、北大和光年之外、百川智能等众多顶尖中国高校和人工智能公司而闻名。

每当人们走进衔远，尤其初次来访者，很难不被挂满墙面的各类学术认定证书、荣誉奖状和高校聘书所吸引。年轻的科学家和工程师在一种高涨的热情氛围里工作，在ChatGPT的热潮下，更多的专家在投奔这里。他们说，八百多平方米的办公室恐怕很快就不够用了。

周伯文自己的办公室紧凑不失舒适，柜子里随意地堆着书籍、奖杯，一张稍大尺寸的照片，是第一届上海市人工智能战略咨询专家与时任上海市委书记的合影。这个会议今年已经办到了第6届，还帮助上海成功跻身国内人工智能领域的高地。

这里展示的细节都指向，周伯文的团队，可能是带领我们改变世界的AI领军者。

不过现在的衔远科技，聚焦在了一个看起来并不是那么宏大叙事的切口上，官网介绍，他们要“覆盖新品开发流程、老品升级流程与自有方案评估,助力打造爆品。”

从“改变世界”到“打造爆品”，后者听起来远不如前者性感。

这种大与小之间的张力在他身上随处可见：这位科学家、创业者的水杯上印着“周老大”几个字，这是公司成立时员工们送给他的礼物；在他的工作笔记本背面，贴着两张卡通贴纸，一张贴纸上写着“we make future brighter（我们让未来更美好）”，另一角的贴纸上画着一个高射炮弹，炮弹上方是巨大的四个汉字：指数增长。

今年春天的时候，ChatGPT风暴袭来，几乎所有人都围绕大模型做宏大叙事。投资人对周伯文说，“你把事情做小了。”

甚至有人“指点”他，进入AI领域再创业，想要吸引眼球，就只能是做通用大模型，而不是局限于一个行业。

“当时的我（的意见），是很典型的非主流意见。”周伯文并没有太过于在乎这种评价，他是个“非共识者”，不愿意附和所谓的共识，“早期的很多判断，最后也都被证明是对的，我更愿意看未来的事情，习惯了在无人区里做事情。”

小切口可以带来大价值，周伯文相信，利用AI算法，用大模型的推理能力深度理解品参将惠及消费者、品牌商、经销商等多方角色，

围绕消费行业的布局与深耕，大模型将成为消费升级的技术驱动力。“技术创新力与市场化能力决定了一家创业公司的价值上限与下限，所有的创新能力都将在商业化过程中被验证”

时间又一次给出答案：2023年7月，产业界正在逐渐从“百模大战”的狂热中走出，开始日渐关心AIGC技术深入行业垂直应用领域。

产与研

2023年初，当本轮生成式AI浪潮从硅谷席卷全球，周伯文在朋友圈发出了一张英雄帖，为衔远科技招兵买马，称对合伙人“不设上限”。

现在，工程师们还在慕名而来。见到周伯文的时候，他刚刚结束一场面试，他对记者说，“有创造性的算法人才，还是比较难找。”

在周伯文的思考框架里，AI如何与产业经济耦合，怎样在产业落地中发挥价值，需要的是不断打磨和迭代。

20年前，当周伯文在大洋彼岸拿下电子和计算机工程博士学位后，便选择进入在全球人工智能产业领域享誉盛名的巨头IBM。

2015-2016年，上一轮人工智能浪潮来袭，周伯文看到“第一波人工智能的应用开始百花齐放”。他迫切地想知道，人工智能能在产业场景中解决什么问题。

2017年他带着这个课题加入京东，从0开始搭建京东的AI体系。

从执掌京东人工智能事业部，到创立京东人工智能研究院，周伯文还抓起了京东云计算、人工智能、物联网及企业信息化等业务，“所有跟数字化、智能化相关的业务，我都涉及管理，定战略、铺规划。”

周伯文当时就意识到，海量的商业信息，可以被压缩到一个具备专业能力的通用大模型中，后者可以通过学习商品供应链的各个环节，并以消费者为中心，大大提升关键环节效率。

这个构想令他感到兴奋，那意味着生成式AI的应用已经具备爆发的可能。但同时，他觉得有必要投入更多的精力去聚焦研究和应用。

2021年底，周伯文选择投身AI领域的创业浪潮。他希望基于通用大模型能力，选择切入大消费这一垂直领域，展开场景应用落地的摸索，同时打造垂直应用的价值闭环。

2022年5月，他重返学术界，被清华大学电子工程系聘为长聘教授及惠妍讲席教授。同期，周伯文还创立了清华大学“协同交互智能研究中心”，其研究方向主要是，智能体跟以人为中心的世界和环境交互的过程中，如何不断迭代和自我学习，包括多模态表征、交互、推理，人机协同演绎，大小模型共同演化等多方面。

“都是真实的痛点，我们也在扎实地解决问题，现在需要做的是，验证技术可行，成本可控，可持续为客户创造价值。”周伯文说。

在科学家和企业家之间切换身份，没有给周伯文带来难题，相反，他认为多元角色丰富了他的思考维度。

他反思称，科学家不太强调应用价值，“不是所有的创新突破都有价值，有价值的也不一定能做出创新突破。”

价值落地，随之成为周伯文创业初衷，“希望把我的学术思想和产业实践结合起来，衔远科技是那个创造价值的载体。”

如今，当行业内还在卷通用大模型能不能追上ChatGPT时，周伯文已经在考虑如何“让每一件商品都应需而生，让每一个消费者都得偿所愿”。

|对话|

“绝对的非共识派”

经济观察报：你参加了2023世界人工智能大会（2023WAIC），与往年相比，有哪些差别感受？

周伯文：我从回国起，过去几年都全程参与WAIC，从第一届起就成为了上海市人工智能战略咨询专家委员会委员。去年第五届WAIC时，我到了清华大学，今年是第六届，我还作为人工智能领域的创业者再次参与。

除了这个花絮外，从技术角度来讲，WAIC一直跟前沿技术高度匹配，可以看到，今年大模型成为大家讨论的话题，但聚焦国内看，大模型在去年末今年初进入大众视野时，外界全都在谈OpenAI，“做大模型，中国的OpenAI在哪里？”之后谈“大模型的商业模式是什么？”一步步走来，到今年年中时，大家的关注点就变成了大模型应用和创造价值，如何推进产业落地。

今年的WAIC上，产学研都开始深入地思考一个问题，大模型是怎么来的，要向哪里去？这其实是我2021年底考虑大模型和产业进行结合时的出发点。

经济观察报：你总能在绝大多数人之前较早出发，这个认知是如何形成的？

周伯文：我应该是一个绝对的非共识派。

2021年底，我选择从京东出来时，就想要利用技术把人跟商品所有环节上的互动，从品牌的设计、生产、创意制造到交易消费，背后涉及的数据都压缩进一个关于世界知识的模型中，之后通过生成式人工智能，搭建起一个可以跟消费者互动的桥梁。现在回头看，在那时与绝大多数是非共识的。

之所以要做这件事，首先是我认识到大模型一定要有产业价值，而人跟商品的连接便是我找到的场景；其次，我认为技术上能够实现，把消费者与商品的关系数据压缩进模型，经过多次训练，模型能够精准地预测消费者的喜好和需求。

这跟原来的搜索或匹配逻辑有巨大不同，更细颗粒度地理解消费者后，再将独立个体间的共性聚合起来，进而延伸到品牌端，去生成爆品的创新设计或打造产品。这让衔远大模型成为唯一一个能够连接C端消费者和B端品牌与产品两个方向的大模型。

“无人区”创业

经济观察报：当别人还在讨论大模型时，你已经带领团队去摸索产业落地，这是因为看到了先机？

周伯文：作为一个人工智能技术研究者和团队领导者，我永远需要在推想“人工智能下一步会怎么样”，在2015-2016年，我就认为生成式人工智能是通向AGI的必经之路，只是在2021年底我们要把生成式人工智能用到产业时，大部分人并不能理解这件事是能做到的，觉得我做的这件事情太难了。

到了ChatGPT出来到2023年春节后，每个人都开始认识到生成式人工智能与大模型的潜力，大家越来越多地认识到衔远的价值，但不少人又觉得我们要做的事不够大，有些投资人劝我，“本可以融100亿美金，你只做10亿美金的事”，“做这个东西，你把自己做小了。”

经济观察报：你觉得自己的故事小吗？

周伯文：根据我的科研背景和产业经验，他们觉得我可以做得更大，尤其是大家都在讲做多么大的事情。但我认为不存在第二家OpenAI，模仿别人就是逃避未知。很多人不想这个事情，逻辑是先把类OpenAI的东西做出来，之后再思考，反正中国这么丰富的场景，肯定有应用空间。我的非共识就是要首先对未来有洞见，所以我要先回答大模型到底有什么用，大模型技术上发展演化会向哪里去，这些问题要前置思考，不是先模仿别人，不要逃避未知，把这些更重要的问题delay。

经济观察报：海外既有OpenAI，在应用领域也有Midjourney这样成功商业化的独角兽成长起来，中国是不是也有弯道超车的可能？

周伯文：我的认知是，OpenAI是在无人区里面去做这件事，我们不应该仅仅是跟随定义，中国要做的是走一条新路，基础模型应该具备底层技术驱动上层场景，解决问题和创造价值相结合的能力。

当然，大部分科学家的想法可能是，参考手里有哪些技术，造出锤子去找钉子，这也是大部分技术人创业的心态。我虽然是科研人出身，但在考虑问题时，更多是逆向思考，以终为始——我到底要创造什么样的价值。创立衔远科技的初心，就是从这个问题开始的。21年底，我们确定是“让每一件商品都应需而生，让每一个消费者都得偿所愿”。

除了对问题的深刻理解，更为关键的是，我们知道技术现在能做到什么样子，未来1-2年能做到什么样子。衔远科技就是要依靠最前沿技术的能力去匹配解决真问题带来的需求。衔远走的是一条自有大模型跟应用场景闭环一体化的发展路线。

换句话讲，从这个出发点创业，我唯一的参考系是价值创造，“能不能给产业创造价值”，这是衡量衔远科技的一把尺子。

当下与未来

经济观察报：进入AIGC领域创业初期，你的节奏和状态如何？在更多人涌入大模型创业后，是否面临既定规划被打破的局面？

周伯文：会有一些变化。2021年底出来创业，公司投入运营已经是2022年，全年疫情影响下，加上我们做的是一个非常冷门的事情，当时没什么人听得懂，但因为我习惯了承认未知，做一个非共识派；我们就低头做事，各项工作都按自己的节奏来。

2023年之后，大家突然都开始关注大模型，在行业内有相关经历的我，不可避免地成为了大家征询意见的对象，也有太多采访让我谈技术、产业理解。

这让我跟外界有了更多交流，也正因此，我才发现大家对生成式AI的理解是完全不一样的。同时，产业关注度高虽然带来了不少好处，但GPU算力也比原来贵了很多，而且人才密度容易碎片化，这对创业生态也带来了很多不利的一面。

作为创始人，我要去思考趋利避害，要坚持初心，不被市场杂音困扰，同时要敏感地去吸收新知识、新进展、新算法以及新思考。对于搞技术创业的人来说，十分贴切的一个描述是，“只有偏执狂才能生存”。

创业一定会是痛苦与快乐交织的过程。比如我们现在就需要优秀的算法与算法工程人才，特别是创造性思考的人才，但市场上这类群体远不够丰富。这也是我回到清华大学后，一直把培养人工智能基础研究、人工智能产业化的两类人才作为我最重要、最花时间的头等大事。我们国家未来的智能化发展急需这两类人才。

经济观察报：你相信大力出奇迹吗？

周伯文：大力，只有在正确的方向上，才能出奇迹。比如说，你没有Transformer架构，没有多头自注意力设计，是很难出奇迹的。原来也一直有很多在研究中的语言模型，也用了大量的数据集去训练，但原有的模型架构不对，抓再多的数据都没有办法使它涌现。所以只有方向对了，才可能有很大的一种奇迹。人工智能产业化、创业也是一样。■