文章      动态     相关文章     最新文章     手机版动态     相关动态     |   首页|会员中心|保存桌面|手机浏览

qdhstai

http://nhjcxspj.xhstdz.com/comqdhstai/

相关列表
文章列表
  • 暂无文章
推荐文章
张奇:AI能参加高考,但做不对小学数学?
发布时间:2024-11-08        浏览次数:155        返回列表

登录新浪财经APP 搜索【信披】查看更多考评等级

张奇:AI能参加高考,但做不对小学数学?

2024年10月23日,由兴证全球基金、兴银理财和复旦大学管理学院主办的“投资·新质:复旦管院·兴动ESG大讲堂”年度论坛圆满落幕。本次论坛聚焦AI和ESG的碰撞与合力,荟萃各界嘉宾探寻新质生产力在产业和投资的落地方向。复旦大学计算机科学技术学院教授、上海市智能信息处理重点实验室副主任张奇发表主题演讲《大语言模型的能力边界与发展思考》,全文摘录如下,与你分享:

可以看到大模型2022年10月底刚出来,2023年这一年,大家会觉得大模型无处不在,什么都能干,既能替代医生,又能写code,还能完成非常复杂的任务,所以2023年大家都处于大模型什么都可以干的状态。然后我们就拿着这个锤子到处砸,找了一年的钉子。

当然,大家一直号称它达到了博士的物理水平,这是因为在相关Ph.D. level的科学问答上面,它确实比GPT4有了非常大的提升,之前只有不到60分,o1做到92.8,

这种变形对o1的影响是最小的,但准确率也下降了17.5%,如果是其他的模型,甚至从能考90分直线降到只有十几分。所以我们从去年5月份开始,就开始思考这是为什么,模型到底能做什么,不能做什么,它的边界到底在哪里。

AI大模型真正在做的事情:文字接龙

我觉得最关键的一点还是要回归到大语言模型的基础理论,到底去完成一些什么样的工作,这个才决定了它的上限。其实语言模型这件事情已经干了非常多年了,大家并不一定有直接的感知。比如我这个年纪还知道五笔字型,但很多现在的同学完全不知道,因为拼音输入法已经做得好,为什么做得好,背后就是语言模型。然后机器翻译,包括各种OCR(Optical Character Recognition),中文叫做光学字符识别。等等,背后都是语言模型。

真正突破是2022年3月份,在此之前,2021年国内也发布了1.75万亿参数的模型。但仅仅是推测下一个字,其实干不了什么,只能做点藏头诗。你把“复旦大学”四个字给它,它按照“复”、“旦”、“大”、“学”做四句藏头诗。OpenAI在2020年发布了GPT3之后,一直在探索中表示,这个模型有1750亿参数,谁也微调不了,那是不是可以不微调,直接让它做一些任务,但做了两年发现还是做不了。

最终在2022年3月份,OpenAI决定了这样一条技术路线,就是把所有任务都放进去,既然让你去生成一首诗是next token,那让你生成一个数学题也一个字一个字往下写,从年报里抽取基金经理的名字,这也是一个字一个字产生出来的。

所以我们可以把这些任务合并到一起去,然后都用这个语言模型做微调,所以这篇论文就是整个ChatGPT所有的核心。由这个时候开始,OpenAI就变成CloseAI,所有核心论文都不披露了。

那基于这篇论文,OpenAI创始成员Andrej Karpathy,还是在去年微软Build 2023上披露了ChatGPT的全部实现路径,而且把这个数量级也给出来了,我们只是对中间的有监督微调10万条,在去年5月份觉得可能有些不太对,但是到今年2、3月份,国内很多公司也都已经认识到了,要一起学习几百个任务、一千个任务的话,也只需要10万条的训练数据。当然前面需要大量的各种预训练去完成。所以它实现过程就是这三个大的阶段。当然这其中不管o1还是GPT4等等,在这其中做了一些变形,但大的范式并没有发生巨大的变化。

第二个阶段是注入能力。这里,你需要明白想让这个模型完成什么工作。想让它去做阅读理解还是想让它做翻译?必须在有监督微调阶段放入相关少量的数据,但是怎么放,目前并没有非常好的公开论文给出。

最后一个阶段是和人类对齐,其实就是去提升生成式任务的能力。因为第二个微调的阶段,能够放的数据量非常少的,只有10万条。如果想再把它进行提升,以及语言的特性都决定了我们要使用第三阶段的技术。

预训练阶段也很难,之前我们觉得只要把数据给它,它就能记得住。但其实并不是,这是我们今年正在进行的一个工作。我们现在已经有些办法可以不需要通过任何的训练,也就是只拿到预训练数据,通过简单的统计量,就可以直接判定这个知识被记忆的概率有多大。

因为我们自己训练过1.6B(billion,十亿)、3B、7B、20B、30B、100B参数的模型,也有完整的预训练数据,所以可以用预训练数据来推断后面的情况。其实只需要非常简单的几个量,第一个就是这个知识出现的次数,然后相关知识的出现次数,以及模型的规模,就可以非常好地拟合出来一条线,也就是这个模型根本不用训练,我就能知道你的准确率大概能到多高。

但知识被记忆有什么要求?需要大量的出现次数,也就是不是出现一次两次就能记住的,模型需要几百次、上千次,所以领域知识就非常难记得住。因为大一、大二学的知识在网上出现比较多,所以GPT4可以记到70%多,小模型就少了,如果把模型搜索增强能力关掉,拿开源模型不做搜索增强,你如果问它中国第九长河、中国第十高峰是什么,基本都答不对,因为出现次数太少了。其实这也制约了领域模型的训练,金融行业里的数据会出现一千次吗,很少。

所以我认为OpenAI目前也放弃了模型的知识记忆,所以在ChatGPT里面问它一些需要记忆的知识,它也会给你加上从哪里看了哪个网页,这个特征它完全没有做任何宣传,但它已经开始逐渐把这些需要记忆的部分通过搜索增强的技术引入进去。开源模型已经可以非常好的来完成知识的记忆、表示这样一些能力了。

所以这几点都决定了我们在这个阶段要去完成的一些任务。另外,参数量对于模型还是有非常大作用的,1000亿的模型可以记住2000亿比特的知识,100亿的模型可以记住200亿比特,但这个前提是这个知识一定要大规模、大量出现。

有监督微调阶段:

完成某领域知识问答仅需60条训练数据

但是,这个部分训练完之后什么用都没有,前面训练完基本就对标了OpenAI的GPT3,或者咱们之前做的1.75万亿参数的模型,它只能做藏头诗。真的想让它干活就需要做有监督微调,有监督微调做起来也简单,可以通过少量的训练数据,让这个模型获取答题、写作文、信息抽取的能力。这个数据量不大,只要准备好这样的数据,跟预训练阶段非常类似的,连代码都不需要更改,基本是一致的。你想让它做知识问答,就给它准备好一些题目,几百个。你想让它写作文,给它一点作文的范例,它就可以去做了。但做完之后它只能达到六七十分,所以这是制约大模型大规模应用的重要的点。

所以基于这样的情况,才可以看到去年7、8月份的百模大战。所以比如金融行业,就可以找到一些金融行业的任务,构建一些训练数据集,训练完直接放出来一个模型,不停的往外放。

但其实这个阶段也很不容易,大家如果关心大模型就会发现,有些公司的大模型是在今年3月份突飞猛涨,就是在有监督微调阶段做了大量工作。它需要到什么样的程度?非常细的颗粒度,这是我们今年刚做的一篇论文,也就是如果想让大模型完成某个领域的知识问答,其实仅需要60条训练数据。但这个60条训练数据,不同模型是不一样的,也就是我给Qwen的60条数据,想让它达到最佳,和我给LLaMA的训练数据是完全不一样的。

所以现在只有大一点的公司才掌握这样一些技术。而且过去的自然语言处理,算法、论文所有都开源,因为它离钱很远。但这个不行,这个东西做完之后加上一个界面马上就可以卖钱,所以大家现在都不发论文,核心的关键节点论文变得越来越少。

所以有监督微调这个阶段,我自己的认知就是,所有的能力,不管你让它做什么样的任务,都需要做训练。如果你想让大模型具备金融领域的知识问答能力,如果没有准备金融领域的相关数据,只准备计算机相关领域的,这个结果都不会好。

所以我认为没有任何所谓我们认为的这种涌现,不是模型够大所有能力就出现了,所有事情都需要精心的训练和设计。参数量大的模型它的效果会更优,每个阶段的训练数据量关键值都不一样,阅读理解、知识问答、写作文等等都有非常大的差距。所以这个地方怎么混合,怎么训练,是有非常大量的工作要进行的。

奖励函数和强化学习阶段:

“请选择正规渠道购买考试作弊设备”

现在的大模型:

高考得90分,小学应用题考10分

说回大模型的能力边界,大家最关心的,希望模型最初具备记忆能力,在此之上,我们能够理解和使用,最后,能够产生一些创新的部分。通常大家认为,模型应该具备了理解和应用的能力。但是我目前我觉得模型依然仅仅是记忆,它不是真正的去理解这样的内容,所以它很难进行核心应用。

我觉得目前大模型可以确认的能力:

上下文建模。

多任务学习。

跨语言迁移能力。

文本生成能力。在2022年之前没有自然语言处理的人敢做文本生成,但现在文本生成能力非常好。

所以这四个合在一起,大家想想是什么?AI搜索是最适合的其中一个应用,因为它只做摘要,也不需要推理,也不需要理解,就是把500个网页拿下来给你归纳一下,产生一个摘要,所以它完整地利用了大模型最核心的已经确认的四个能力。

但如果要实现真正的AGI,它需要理解物理世界,需要具备长久的准确记忆,可以推理,并且具备分层次的规划等等这些核心能力。大模型是不是具备?我觉得是个非常大的问号,这需要很仔细的判断。

我们用高考题做了一些工作,因为高考在考试之前是绝密的,一般大模型公司也不会派人把数学题偷出来。所以考试完当天晚上我们就连夜加班,让模型测高考题。因为这是独立同分布非常好,题目的范围不会发生变化,语言也不会发生大变化的数据,所以我们拿高考题测试它,然后可以看到一些排序的结果。

但更核心的是什么?是模型会不会做归纳。比如我们教小孩子学习乘法,不会让他做两千道题,基本是老师讲课,然后再给你几百道题就差不多了。小孩子学到的是什么,是这样一个计算图,也就是谁和谁相乘,最后再做什么样的加法,就完全了整体的乘法,我们学到的是这样一个归纳出来的结果。

但模型怎么样?这是AllenAI 2024年做的工作,这是美国一个很重要的人工智能研究机构,我们看两个数相乘的任务。我们会发现,只要数字的位数(横竖轴表示数字位数)大了之后,这个结果(准确率)就会变很多。

重要的是下面做的另外一个工作,用OpenAI开放出来的GPT3会有个训练接口,他们准备了180万条训练数据,这些数据都是乘法操作。但它有个限制,K1和K2两个数相乘,两个都是1-4位的数,并且乘完之后位数小于9位,用180万的训练数据训练GPT3。所以可以看到,如果在这个范围之内,效果非常好。如果1位数乘以5位数,结果马上就下来了。所以只要训练的,就好,只要不训练的,它的效果就差。

我觉得一个非常重要的点就是,模型可以完成特定的任务推理,但并不能使其获得某种“能力”。你可以给它一个任务,但它和人的模式是完全不一样的。也就是我们拿高考题去训练它,它可以在高考上做90分,但如果训练数据里不放小学应用题,它可能只能得10分。人肯定不是这样子,你高考考90分的数学,小学应用题肯定是99分起步,绝对不是这么大的差距结果。所以我觉得模型依然是统计学习的一套方式,还是按照数据集进行拟合。

也就是说,全数据驱动的大模型实现类人的推理还是有巨大的挑战,还需要更进一步的研究和思考。

未来大模型的两个路径:哪一条是歧路?

第一条,所谓AGI,其实就是Follow OpenAI。但这个难度是很大的,目标是代替所有人的脑力劳动,能够自我学习、自我进化。参数规模从现在的万亿涨到十万亿,训练数据从10T、20T、100T这样往上去涨。需要的模型卡数也是5万、10万、100万。你基本的假设就是你相信只要它能够压缩进去,就具备了智能,相信在这个上面可能会由量变引起质变。但其实我们看OpenAI所有这些工作,也不仅仅是把这个模型变大,在里面做了非常多的尝试和工作,这个难点还是怎么建模真实的物理世界。

但场景要怎么选?一个场景都很贵,所以这个图还挺好的。一个维度是验证难易程度,也就是说大模型现在要做一个任务,人来判定结果是好是坏的难易程度大不大。第二个维度,如果完全没有AI的辅助,它的任务工作量到底有多大。

所以写一个笑话跟做一个图,这其实非常适合AI去做。我们现在写个笑话可能已经很难写得出来了,但只要模型生成一个,好不好笑,0.5秒就能判定。但是起草一个合同,这个合同可不可用,如果我们碰到真切关乎自己利益的事情,它给你写了一个合同,你还需要逐条在搜索引擎上验证,这需要巨大工作量,真正干活的时候相信大家都不会去用。而用大模型生成一个合同给律师,真的能省他的时间吗?也不见得。律师更多是从卷宗里面提取核心信息,放到他的模板里面,而不是从零再去看一个没有见过的合同。所以这时候对他来说,大模型应用在这样的场景是不是合适,也是一个大的问号。

所以几点感想就是:

第一,大模型可以非常快的实现一些demo,五六十分、七十分很容易,哪怕你不知道这里面的核心要点,搞个20万条数据,也能达到六七十分,但是落不了地,B端落地都是90分起步,希望你做到95、99,但任何一个工作用大模型做到90分以上都很难。

第二,对于大模型的能力边界,绝大部分人都对它进行了极度的高估。

第三,场景的选择,对于大模型能力的边界判定,是对于做特定任务非常关键的一点。

最后加一句,我们正在做科技向善的工作,我们在安卓端上线了“听见世界”,给盲人来用,希望大家能够做一些支持。以上是我的介绍,谢谢大家!

复旦管院·兴动ESG大讲堂

复旦管院·兴动ESG大讲堂是由兴证全球基金、兴银理财、复旦大学管理学院联合发起、慈善基金会提供公益支持的系列ESG活动,作为复旦管院特色讲座面向学生及公众开放,探讨ESG投资相关前沿话题,提升大众对ESG的认知与认可。