压缩器

压缩器插图费斌杰熵健科技CEO

作者|费斌杰熵简科技CEO

自去年12月ChatGPT问世以来,AI的发展正式进入快车道,整个行业开始“逐日迭代”。从1957年开始,经过几轮AI浪潮,通用人工智能(AGI)真的来了。

2月份,我们团队发表了对ChatGPT技术原理的深入分析,得到了业内专家朋友的广泛认可。但随着研究的深入,越来越多的问题浮出水面:

ChatGPT强大的一个重要原因是大型语言模型的突现能力,那么突现能力为什么会产生呢?

GPT 5号会有什么意想不到的表现?

AGI将何去何从,将对社会和经济活动产生什么影响?

本文对上述问题进行了深入的讨论,并尽可能给出了详细的分析过程。本文凝聚了我们团队的研究成果,分为以下四个部分:

大型语言模型的精髓:强大的无损压缩程序

视觉信息是丰富的知识宝库:从文本到多模态

大数据时代的数据短缺:用合成数据打破游戏

AGI对人类社会经济活动的影响:展望与思考

写在前面:熵简科技是一家致力于帮助资产管理机构实现投研数字化的科技公司。主要客户包括CICC、中信、广发、建投、国鑫、招商、华夏、嘉实、银华、博时、汇添富、兴全、易方达等证券和基金公司。我是熵简科技的创始人费斌杰,但我写这篇文章的时候,纯粹是新技术浪潮下一个激动而紧张的见证者和参与者,尽可能客观地评论和分析这种新技术会给我们的行业带来什么冲击和影响。以下分享的是我们熵简化团队的研究成果。LLM技术发展日新月异,当前时间点的分析不可避免。欢迎指正。

大语言模型的本质:性能强大的无损压缩器

在最近的OpenAI学术分享会上,Jack Rae提出了一个重要的结论:大语言模型的本质其实是一个强大的无损数据压缩器。

LLM =压缩

这种说法不是很直观,但却揭示了“通用人工智能”非常重要的一个角落,值得高度重视。为了让大家明白这个观点,我们来讨论一下“学”本身的问题。

自上世纪以来,人类普遍认为“学习”是人类特有的天赋,机器无法真正掌握“学习能力”。随着深度神经网络技术的发展,人们构建“人工神经元”来模拟大脑中的“生物神经元”,使机器开始具备一定的学习能力。

图:生物神经元(左)和人工神经元(右)的对比

现在,OpenAI得出了关于“学习”的最新结论:“学习”本身可以理解为对有效信息进行无损压缩的过程。

为了更好地理解这个观点,我们来做一个思维实验。假设我们需要建立一个模型来处理英语翻译中的翻译任务。

最简单粗暴的方法就是列出每个英文单词对应的中文,也就是基于规则的映射。假设我们把英语单词的中文对照表全部列举出来,写了1000页的字典。

但是通过这本词典,我们真的能有效地完成英语翻译中的所有翻译任务吗?答案是否定的,因为基于规则的映射系统非常脆弱,只要在翻译过程中遇到一个新单词,系统就会崩溃。

所以这个模型的翻译表现很弱,可以理解为“模型没有真正学会翻译”。

重点来了。现在请把这本1000页的字典“无损压缩”成200页的手册。字数减少了,但信息量不能少,所以不能简单地从1000页中抽取200页组成一个“小词典”,而是需要对数据进行高维编码,实现无损压缩。

经过压缩,这本200页的手册不再是简单的单词映射,而是包含了包括主谓宾、定补、虚拟语气、时态和单复数在内的英语语法。与字典相比,它更像一本教科书。

图:减少任务描述的长度相当于增加对任务的理解。

注意,在这个压缩过程中,“学习”作为一个内隐过程,起到了知识编码的作用。通过将1000页的字典压缩成200页的手册,模型“学会”了英语语法,掌握了英语翻译中的知识。通过这个例子不难发现,学习的本质可以理解为对有效信息进行无损压缩的过程。压缩比越大,学习效果越好。

根据OpenAI的最新观点,基于GPT的大语言模型是一个性能优异的数据压缩器。语言模型的本质是不断预测下一个词的概率分布,从而完成产生任务。

但从无损压缩的角度来看,如果模型预测下一个单词更准确,就意味着它对知识的理解更深刻,从而获得更高的世界分辨率。随着模型规模的增大,基于信息熵计算的压缩率也会逐渐增大,这也解释了为什么模型的性能会随着模型规模的增大而提高。

提高模型压缩比的方法并不只有一种,比如“增加缩放比例”,正如Jack Rae所说:缩放并不是你所需要的全部。更好的算法架构、基于插件的工具集成以及合成数据的应用,可以有效提高模型的压缩比,从而进一步提高模型的性能。

图:提高模型压缩比的几种方法

视觉信息是知识的富矿:从文本走向多模态

由于大语言模型的发展目标是不断提高有效信息的压缩率。自然,如何获取尽可能多的有效信息就成了一个重要的命题。

人类是具有语言能力的视觉动物,我们大脑皮层约有三分之一用于视觉信息分析。因此,视觉信息是人类知识的丰富宝库。

图:大脑皮层的视觉信号中枢。

比如我们都知道“太阳从东方升起,西方落下”,这是一个常识。但是如果分析一下我们是怎么学到这些知识的,我相信大部分人都是亲眼所见,而不仅仅是通过书本。

推而广之,视觉信息往往是人类知识的来源。因为人类有语言和文字的能力,所以人们会慢慢地把通过视觉获得的信息转化为文字形式并传播出去。

所以,如果把人类获得的所有知识都看成冰山,那么基于“文本”的数据只是冰山一角,而基于“图像”和“视频”的数据才是人类知识真正的富矿。这也是OpenAI的GPT-5会基于海量互联网视频进行学习的原因。

具体来说,如果给模型展示大量的天文观测视频,模型就有可能学习到一个隐含的开普勒定律;向模型展示大量带电粒子的运动轨迹,模型可以学习洛伦兹力的数学表达式;当然,我们也可以更大胆一些。如果从模型中得知强子对撞机的海量实验数据,那么模型能否解开希格斯玻色子的秘密,从而解开物质“质量”之谜,还是相当值得期待的。

图:基本粒子模型和上帝粒子。

大数据时代的数据荒:运用合成数据破局

虽然人类社会早已进入大数据时代,全球经济活动产生了大量的数据资产,但LLM所需的训练集却膨胀得更快。根据预测,文本数据将在2026年前训练完成,图像数据将在2040年左右用完。

图:大语言模型预测互联网股票数据消费

这对于“努力创造奇迹”的大语言模式来说,可不是什么好消息。如果培训集体不够,模型就无法继续扩大规模,从而不断提高绩效上限。

这时,“合成数据”就成了破局的重要方式。顾名思义,“合成数据”指的是算法生成的训练集,而不是从现实世界中采集的样本。

根据Gartner的预测,2026年50%的模型训练数据将由合成数据组成;2030年,合成数据的质量将完全超过人类标注的真实数据。

图:Gartner对合成数据发展的预测

OpenAI在GPT-4的技术文档中重点介绍了合成数据的应用,可见OpenAI对该领域的重视。

图:GPT-4技术报告中关于合成数据应用的讨论

再者,如果合成数据的质量能够完全超越人类标注的质量,那么未来AGI可以自我迭代,进化的速度也会大大提高。到这个时候,人类可能会成为AGI的开机程序。

这让我想起了马斯克在2014年做出的预测。他认为,从“物种进化的尺度”来看,人类代表的“碳基生命”可能只是“AI”代表的“硅基生命”的启动脚本。

这个预测令人毛骨悚然。14年,大多数人会觉得这是危言耸听。但现在我们回过头来看这个判断,不难发现这与“合成数据”的发展目标不谋而合。

合成数据领域的突破可能成为AGI跨越奇点的重要里程碑。让我们拭目以待。

图:马斯克对14年AI发展的判断。

AGI对人类社会经济活动影响:展望与思考

在刚刚结束的GTC大会上,英伟达CEO黄仁勋将ChatGPT的诞生比作移动互联网的iPhone时刻。但从人类科技发展史的尺度来看,我认为ChatGPT的诞生更像是“第四次工业革命”的前奏,它将带来社会生产力和生产关系的质变。

虽然有点不合适,但如果我们把人类看成一台“生化计算机”,不妨比较一下人类和AGI的效率异同:

首先,从“通信效率”的角度来看,人类之间的数据传输主要依靠通信,通信的本质是空气体介导的机械波。相比之下,AGI之间的数据传输主要是通过GPU之间的NVLink,数据传输的带宽明显提高。

其次,从“工作效率”的角度来看,人类受限于生物体内复杂的免疫机制和神经元修复机制,需要保持足够的睡眠,才能在白天获得良好的工作状态。而AGI只有在能量供应充足的情况下,才能实现7*24高强度运行,工作效率显著提高。

再次,从“合作效率”的角度来看,一个100人组成的团队的整体工作效率往往不到一个10人小组总产出的10倍。随着组织人员规模的增加,人均产出必然下降,需要通过“经验管理艺术”激发团队合作的活力,相反对于AGI来说,增加计算节点可以扩大产能,不会存在边际效用递减的管理与合作问题。

图:人工智能和人类智能的发展曲线

以上分析与人类相比,AGI的生产力更有优势。但是,人类在以下几个关键方面仍然具有不可替代的价值:

首先,虽然AGI在知识的广度上会远远超过人类,但人类在特定领域的知识深度上还是有优势的。

以金融投资为例,一个高级投资经理可以根据不完全的市场信息进行模糊推断,从而获得超额收益;以科学研究为例,一个优秀的科学家可以从看似微不足道的实验误差中推断出一个全新的理论体系。这些都是AGI目前力所不及的。

其次,社会经济活动的运行高度依赖于人与人之间的“信任”,这是AGI所无法替代的。比如你去医院看病,即使AGI能根据你的症状描述做出相当准确的诊断,你还是会有很大概率拿着诊断结果去咨询附近的人类医生,寻求值得信赖的诊疗建议。类似的“信任机制”构成了医疗、教育、金融等领域经济活动的重要基石。

随着AGI的发展,很多经济活动中的游戏规则会悄然改变,而这种规则改变的契机将会是以AGI超越人类中这一领域的最强者为分界线,就像AlphaGo的诞生彻底改变了围棋的规则一样。

结语

这是最好的时代,也是最坏的时代。悲观主义者可能永远是对的,但这真的没有意义。

纵观历史,人类科技史的发展不是连续的,而是跳跃的。也许我们正在经历的是人类科技水平的飞跃。无论如何,我们有幸见证并参与其中。

最后分享一句我特别喜欢的话。这是OpenAI的CEO山姆·奥特曼(Sam Altman)在30岁生日时给自己的人生忠告:

日子很长,但几十年很短。

参考

[1] Power,Alethea,et al .〈探索:在小算法数据集上超越过度拟合的一般化〉。arXiv预印本arXiv:2201.02177 (2022)。

[2]布贝克、塞巴斯蒂安等《人工一般智能的火花:gpt-4的早期实验》arXiv预印本arXiv:2303.12712 (2023)。

[3] Eloundou,Tyna等人,“GPT就是GPT:大型语言模型对劳动力市场潜在影响的早期观察”arXiv预印本arXiv:2303.10130 (2023)。

[4]吴,石杰,等.“BloombergGPT:金融的大语言模型”arXiv预印本arXiv:2303.17564 (2023)。

[5]梁,珀西等.“语言模式的整体性评价”arXiv预印本arXiv:2211.09110 (2022)。

[6]布朗、汤姆等人,“语言模型是一次性学习者。”神经信息处理系统进展33 (2020): 1877-1901。

[7]卡普兰,贾里德等人,“神经语言模型的标度律。”arXiv预印本arXiv:2001.08361 (2020)。

[8]周,永超等.“大型语言模型是人级提示工程师。”arXiv预印本arXiv:2211.01910 (2022)。

[9]魏、杰森等,“大型语言模型的突现能力”arXiv预印本arXiv:2206.07682 (2022)。

[10] Zellers,Rowan等人《HellaSwag:机器真的能完成你的句子吗?.”arXiv预印本arXiv:1905.07830 (2019)。

[11]巴罗卡斯,梭伦,莫里茨哈特,和Arvind纳拉亚南。“机器学习中的公平。”Nips教程1 (2017): 2017。

[12]欧阳,龙等,“训练语言模型,使其在人类反馈下遵循指令”神经信息处理系统进展35 (2022): 27730-27744。

[13] Devlin,Jacob等,“Bert:用于语言理解的深度双向转换器的预训练”arXiv预印本arXiv:1810.04805 (2018)。

本文来自微信微信官方账号《熵简化技术价值简单》(ID: shangjian-tech),作者|熵简化CEO|费斌杰,由36Kr授权发布。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

本文来自网络,若有侵权,请联系删除,作者:给力软件,如若转载,请注明出处:https://examemo.com/11461.html

发表回复

登录后才能评论