被质疑、抄袭、魔改，非主流大模型的诞生之路

时间: 2024-10-12 22:50:14

虎嗅APP 2024年10月12日 21:46

出品 | 虎嗅科技组

作者 | 王欣

编辑 | 苗正卿

头图 |《小丑》

虎嗅注：RWKV创始人彭博是今天故事的主人公，在Transformer架构大行其道的当下，他一个人花了三年时间构建了RWKV架构，一种不同于Transformer架构的RNN架构。本文为虎嗅《AI星火》系列第 07篇稿件，《AI星火》系列聚焦AI细分行业的头部公司，通过记录AI创业者的故事，折射出他们对AI产业的共识与非共识。

在见到RWKV创始人彭博之前，我也像一些人那样，怀疑过他是骗子或者“民科”。

他的公司元始智能员工在小红书发表的，诸如“OpenAI走到死胡同”这样的“暴论”下面，评论区也不时会有对他们质疑和诋毁的声音，比如让他们拿出证据，证明他们自研的大模型架构RWKV6确实比OpenAI强。

但彭博完全不在意这些声音，或许这就是成为另类的代价。——在诸多大模型公司都选择与OpenAI相同的Transformer架构时，彭博用了三年时间走上了另一条路，将Transformer改写成RNN形式，保留了较低的时间空间复杂度。“给我十万张卡和100个小弟，我把OpenAI干趴下。”彭博半开玩笑半认真地告诉虎嗅。

虽然他们走的是完全不同于OpenAI的路子，但2023年春节，彭博收到了“竞对”OpenAI的入职邀请。元始智能联创罗璇解释说，这能够说明他们确实有颠覆OpenAI的可能性，而这个offer更像是一张用以招安的投名状，是对彭博一种另类的“认同”。

图片注：彭博收到的Open AI offer

但业内也有一些声音，认为RWKV架构与Transformer架构并没有本质上的区别。

另外，他们在融资进程上也难言“丝滑”，资本对他们的认可度并不高。彭博毫不避讳地告诉我，一些投资人对他们的判断也是“野生科学家”。

这导致了算力和人力资源限制，也影响了RWKV的硬指标。“现在大家scale得比较先进，炼的token也多，这方面我们相对还比较落后”，彭博表示，token多的模型先天有很大优势，但他也相信“等到token量上去了，他们就不能轻易黑我们了”。

01少有人走的路

但相信RWKV路线的人，仍然存在。

比如某技术出身的知名投资人，在2023年底，这位投资人给予了RWKV团队千万元级别的种子轮投资。为了获得RWKV团队的信任，他专程去彭博楼下的咖啡馆聊了两小时，认购了1%股权。

让这样的知名投资人亲自登门拜访，并非创业者的常态。但彭博几乎足不出户，他需要足够的独处时间来“炼丹”。

在大多数都做做模型层的工作时，彭博却选择了模型底层架构的研究，他认为现在的AI公司专注的是机械智力的提升，而他同时也关注创造力和智慧的提升。前者指向大脑，有明确的通路（如通过合成数据）；而后者最终指向心和意，路径却有待探索——但这将是真正有趣的问题，需要理解和创造灵性。

最初做这件“希望改变世界时间线”的事情，初衷是因为彭博想探索AI是否能写出“真正有力量”的小说，特别是架空小说。彭博用“愚公移山”来形容这项工作，“这其实是体力活，需要实现和测试大量细节。”

2020年，彭博开始做模型，起初是对transformer架构的改进——引入显式decay和短卷积。

在优化attention机制时，彭博发现它可以写成RNN，引入RNN效率更高和形式优雅的优点后，效果仍然得以保持，通过这种方法，RWKV-2诞生了。

在2016年，AI学术界最流行的架构是RNN循环神经网络的变种——LSTM；但半年后，与其对标的Transformer横空出世，使得曾经大火的RNN成为落伍的少数派。因此，RWKV可以称得上是RNN的复兴。

2023年，彭博很快获得了开源社区的关注，LSTM之父Sepp Hochreiter也转发RWKV的推文，并介绍这是一种无需使用注意力机制，就能达到Transformer性能的RNN架构，运行速度很快。

随着关注度的提升，对RWKV的质疑也接踵而至。有某头部AI公司技术负责人向虎嗅直言：“RWKV架构与Transformer架构并没有本质上的区别。”

在7月的一次见面交流时，为了改变我将信将疑的态度，元始智能联合创始人罗璇特地给我展示了研究RWKV架构并发表论文的研究人员，这包括：上海人工智能实验室、阿里达摩院、腾讯优图实验室等等机构的学者，他们在官网rwkv.cn上展示了二十多篇在各种模态使用RWKV的论文。

学术界一直在探索将物理世界压缩复刻到一个大模型的世界模型，而彭博坚信，RWKV架构作为RNN，是通往世界模型的最合适通路。

彭博的逻辑是：因为RNN更接近人脑和宇宙的运作方式，RWKV是state大小恒定的RNN——正是固定大小的限制，迫使模型学到真正的东西，必须把世界压缩到它的state里去。就像在玩《星露谷》时，由于背包格数有限，玩家只能选择储存最重要的物品。

彭博从物理学的角度向我解释了RWKV的优势。在物理上，宇宙的下一状态只与上一状态有关，这是所谓的locality和causality，量子场论遵循这一原则。而Transformer是一种state（KV cache）不断增大的RNN，它每个字都要和前面的字比对一遍，这相当于“超距作用”，不符合我们这个宇宙的物理。因此，在彭博看来RWKV更加接近这个世界的本质。

彭博甚至更激进地表述：我们目标是做真正的智能，现在可以用混合模型作为过渡方案，以后一定是纯RWKV。

而能做成这件事的信心，除了以上的优势外，“运气也很重要”，彭博自认为一向是个运气挺好的人。

02跳出循环

出乎我意料的是，彭博身上并没有我所假设的——那些恃才傲物的刻板印象，他多次向我强调他其实是个谦虚和谨言慎行的人。例如，当有投资者问到RWKV目前的弱点和缺陷，他会直说，并给出解决改进方案。他也告诉我：“现在的算力和人力资源限制，在一定程度上影响了他证明RWKV架构的先进性。”

这样的资源限制，是因为他们得不到太多来自资本的支持。

虽然在2024年的奇绩创坛路演上，陆奇曾用“受北美尊重的公司”来介绍他们，但大部分时间他们并不是风投的宠儿。

几乎每次见投资人，彭博都需要花费很长时间去解释RWKV，罗璇感觉“他们好像来学习”一样，学完之后，可能还会有人说被骗了，“这就是个民科”。很多投资人不敢投，是因为他们也看不懂这些大模型的底层技术，另外在大多数人都选择Transformer路线时，投资人对于RWKV这样非主流的路线更为谨慎。也会有一些来自Transformer主流路线的声音，干扰他们的判断。

而彭博也不会过度花时间去向投资人解释，拉齐认知。因此，彭博选择只在自己家楼下见投资人，这也是一种筛选机制——“如果一个投资人要我过去见面才肯投的话，那说明他不懂我们在做的事情。”

在对冲基金工作过的他，很清楚这样的投资逻辑：大家追求风险较低的头部路线，有大佬或团队履历背书更佳，这样可以有较为稳定的退出策略。

因此他也十分理解这些投资人的选择，“毕竟有认知有魄力的投资人是少数”。

但大模型研发却需要巨量的资源，我粗略算了下，现在十万张GPU大概需要两百亿人民币。算力和人力资源是摆在彭博眼前的首要限制。“如果我们算力上去了，就很容易证明自己了”。虽然RWKV在一代代迭代下越来越强，但“在算力不够的情况下，有些硬指标确实是不好做的。”在大家都要看硬指标的情况下，难免会陷入被动的循环。

在我表达这样的循环有些可惜后，彭博对此却非常平和自洽：“我觉得没有可惜的，这就是创新者的考验。你选择了更难的道路，就要承担这样的事情，如果你应对不了，就不要创新了，我觉得是很合理。”

彭博认为，时间是站在RWKV这边的。目前资源的限制，会影响大模型的训练，但不会影响RWKV的迭代速度，反而可以成为他的动力：“以小搏大，更好玩。既然要做大事——构建人类所有AI模型的基础架构，就不妨证明自己有能力在任何环境把它做出来，这在后世看，只会更有戏剧性。”

03非共识的相遇

为了做这样全新的架构创新，必须有足够的独处空间。彭博几乎没有参加过任何公开活动，因为他有一个关键帮手——元始智能联合创始人罗璇。

罗璇就像美国大片里永远陪伴在男主角左右的靠谱配角一样，充当彭博代言人的角色，频繁出没于各种科技活动现场，积极布道RWKV架构。

罗璇追随彭博，是因为他认为彭博是天才，“他似乎是生来就要做这件事情的”，而彭博认为他只是“很擅长看到其它人难以看到的角度”，他会用更高的视角看待AI与人类的关系。

见面之后我发现，一头长发酷似艺术家的彭博，远比我想象中要鲜活得多。在工作之余，他也会玩《崩坏：星穹铁道》，关注社会和人心，在今年还开始了情感关系咨询的“新业务”。

而在听罗璇讲述了彭博的故事后，我逐渐开始理解罗璇：彭博6岁从三年级读起，16岁参加高考，他的第一志愿是南大物理系，但最终高考分数超出广东省清华分数线40分，在南大入学后，彭博很快就以全奖奖学金转学去了香港大学。

没有选择计算机系的原因是：感觉不需要专门学。在大学任教的父母都认为计算机编程是未来的方向，因此从六岁时彭博就开始写代码，在高中时就出版过游戏编程的书籍。

2006年，彭博在香港大学毕业后去了当时全球最大的外汇对冲基金，做量化模型，并在后来成为其中的几位基金经理之一，在二十多岁管理六千多万美金。

2013年，彭博从香港回到深圳，开始智能硬件创业——禀临科技。2019年，他观察到市场需求，开始做没那么智能的全光谱灯，知乎上也有人戏称彭博为卖灯泡的。

这时还在天猫精灵AI Lab的罗璇，发现智能音箱是一个当时仍然不成立的故事，于是开始了物流机器人创业。

随后疫情来临，公司销量受影响，彭博保持公司运作，专心投入AI模型底层架构的研发，RWKV架构的诞生之路也由此开启。而罗璇所在的行业也受疫情影响，他开始投身组织、参与黑客松活动——用编程解决实际问题的线下活动。

在一次罗璇组织的黑客松上，他跟彭博第一次见面，两个人的命运也由此交汇。

见面时彭博告诉罗璇，他可能是实现AGI的最佳人选——那时他已经独立做了RWKV-1到RWKV-4，并在海外有了不少拥趸。罗璇之前也见过不少天才，但彭博是天才中比较有意思的那类，虽然罗璇当时觉得彭博的说法有些神经病，但他非常认同彭博所做的事情和底层逻辑，于是决定加入元始智能。

而彭博选择罗璇的原因也非常简单：罗璇能够帮彭博做很多他没法分心去做的事情，而且做得不错，两个人非常互补。

“我们正在走向一个正确的非共识，而且这个非共识绝对是没有共识。”罗璇这样形容他加入元始智能后的感想。

“漫长的路，自己选的，自己走。”未来彭博会按照计划，一代代迭代，去解开这个死循环。他说未来的RWKV8会是一个非常有意思的东西。

“你认为人与人本质区别是什么？”

——在交流的最后，善于从本质出发的彭博问我。

“是认知”，他告诉我：“我只能说我后面做的方向是他们做梦也想不到的。”