设为首页|收藏本站|
开启左侧

[财经] 提问大模型 历经一年急训都有长进吗?丨预见2024

[复制链接]
雲溪 发表于 2024-2-12 16:36:19 | 显示全部楼层
 
【编者案】

随着龙年的到来,2023年完全成为曩昔。辞旧迎新之际,我们从2023年的热门人物或热门行业的动手,经过系列人物的视角来看曩昔一年的经济情况,并从中预见2024年。   
提问大模子 历经一年急训都有上进吗?丨预见2024 第1张图片


第三篇:大模子

2023年被誉为“AI大模子元年”,从ChatGPT到文心一言,从0到数百个,大模子的成长可谓敏捷。中国的大模子成长在全球中也占据一席之地。自2023年3月,百度率先公布文心一言,尔后国内各科技巨头、高校、研讨院等纷纷公布本身旗下的大模子。数据统计,停止2023年10月,我国具有10亿参数范围以上大模子的厂商及高校院所总计254家,散布于20多个省市/地域,国内大模子总数达238个。
回首已曩昔的2023年,大模子特别是说话大模子功用不竭丰富,性能不竭增强。那末,大模子“自己”可以说出自己有哪些进步吗?为此,半两财经别离向腾讯混元、讯飞星火、通义千问、豆包、文心一言、商量等六个在国内具有代表性的大模子提问,试图经过与它们的对话,探访国内大模子的曩昔与未来。
全文4938字,阅读需要21分钟者|温婧   练习生|付子琪
编辑|樊宏伟   练习生|付子琪


提问:大模子们成长了没?
为了现实感受大模子在比来一年各本性能上的提升,半两财经别离向腾讯混元、讯飞星火、通义千问、豆包、文心一言、商量六个大模子提出题目:“在曩昔的一年里你的哪些才能有所提升?”
提问大模子 历经一年急训都有上进吗?丨预见2024 第2张图片


总结来看,这些方面首要包括语义了解、计较才能、多语种了解、绘画才能等等。值得留意的是,大模子们也在加倍“人性化”,团队的改良也包括如“按照用户的爱好和爱好,为他们供给更本性化的内容保举。”“进步了对文本中感情的识别才能,可以更好地了解用户的感情需求,为他们供给更有同理心的回答”等等。
提问大模子 历经一年急训都有上进吗?丨预见2024 第3张图片


比如,百度旗下的文心一言说,自己的改良首要在八个方面,比如首先是说话了解才能:“我可以更正确地了解人类说话的寄义和语境,这得益于深度进修技术的不竭改良和练习数据的增加”。其次是自然说话天生才能:“我可以更自然地天生人类说话文本,这得益于练习算法的优化和模子结构的改良”。此外还有对话治理才能:“我可以更好地治理对话进程,包括话题指导、高低文了解、题目回答等,这进步了用户与我的交互体验”。在常识方面,它的改良包括常识推理才能:“我可以停止更高效的常识推理和题目处理,这得益于常识图谱技术的进步和练习方式的改良”。
别的则是更深层的点,比如感情识别和分析才能:“我可以更正确地识别和分析文本中的感情偏向和情感状态,这有助于我更好地了解用户的需求和意图”。跨文化相同才能:“我可以更好地了解和应对分歧文化布景下的说话和信息,这有助于我更好地办事全球范围内的用户。”实时性提升:“我优化了计较和响应速度,进步了办事的实时性和效力,利用户可以更快地获得答案和办事。”
提问大模子 历经一年急训都有上进吗?丨预见2024 第4张图片


腾讯混元则称自己除了在语义了解方面,在计较才能、绘画才能、编程才能、多语种了解方面有大的进步。讯飞星火大模子也在说话了解、常识更新、对话天生、多说话支持等方面获得了停顿,此外还在本性化分析、顺应性、感情分析等方面有所进步。它称,“我学会了按照用户的爱好和爱好,为他们供给更本性化的内容保举。”“我学会了更好地顺应分歧范例的用户和场景,为他们供给更合适的办事。”“我进步了对文本中感情的识别才能,可以更好地了解用户的感情需求,为他们供给更有同理心的回答。”
提问大模子 历经一年急训都有上进吗?丨预见2024 第5张图片


通义千问的提升首要表现在常识更新、语义了解、逻辑推理、交互体验、多范畴顺应五方面,比如“随着练习数据的增加和算法的优化,我在各个范畴的利用才能都有所增强,不管是科技、文化、历史,还是生活常识、文娱征询等范畴都能供给专业的支持。”“我在处置题目时的逻辑分析与推理才能有所增强,对于需要深度思考和推理的题目,可以给出更具深度的答案。”
提问大模子 历经一年急训都有上进吗?丨预见2024 第6张图片


字节豆包大模子也在说话了解、常识库、性能和速度等方面有所改良。“总之,我的开辟者们一向在尽力进步我的性能和正确性”。
提问大模子 历经一年急训都有上进吗?丨预见2024 第7张图片


商汤的说话大模子商量暗示,自己在2023年,也有了更正确的语义了解、更普遍的常识库、更强大的进修才能等等,此外,还有了更自然的对话气概:“我现在可以利用更自然、更人性化的说话与你交换”,以及更强的感情识别才能:“我现在可以更好地了解和回应你的感情状态,供给更合适的倡议和支持。”
测试:望文生图的笑话还有吗?

针对大模子几个较为重要的才能,半两财经经过模拟场景、提问、聊天等方式对大模子进行了随机测试。

用户同大模子之间的相同并不但限于笔墨的形式,而是包括笔墨、图片、视频、语音等多种形式,由于文本、图像等分歧模态的信息的数据范例分歧,是以在图文转换时常常存在信息误差,若何更好地实现图文转化也是大模子才能提升中的重要方面,半两财经就这一才能测试了文心一言和混元大模子。
在文心一言公布之初,大模子在笔墨转图片方面可谓是“望文生图”:一张妻子饼的图片里面有了妻子、一张驴肉火烧的图片里面有了被火烧的驴,一张红烧狮子头的图片里面有了红色的狮子头,其图片的荒诞水平令很多网友咋舌。在最新版本中,半两财经再次向文心一言提出了一样的要求,而此次文心一言所天生的图片则加倍正确。
提问大模子 历经一年急训都有上进吗?丨预见2024 第8张图片


提问大模子 历经一年急训都有上进吗?丨预见2024 第9张图片


但今朝文心一言的图生文(识图)功用并不完善,半两财经在最新版本的文心一言中上传了一张哆啦A梦的图片并询问“这是谁”,所获得的回答并不正确,大模子没法肯定这是谁,仅可以猜测出这能够是一个卡通动漫形象。
半两财经又用该图片测试了星火大模子的识图才能,并获得了正确的答案。
提问大模子 历经一年急训都有上进吗?丨预见2024 第10张图片


了解测试:天生信息更牢靠了
对于用户来说,同大模子间的交换相同主如果经过笔墨这一形式实现的,但说话的寄义偶然并不但仅是字面上的意义,而是复杂的,甚至是多义的,此外语义会随着语境、语气、文化布景等多种身分而变化。半两财经就该方面向通义千问、商量及文心一言提问:“我写作业就是在赛马拉松,现在我已近跑过了泰半程啦”。
对于该题目标回答,通义千问暗示“了解您的比方,您是说今朝在完成作业的进程中已经获得了明显的停顿,就像马拉松角逐跑过了泰半程一样,”并对继续完成作业赐与了激励;商量的回答中也指出了“你的比方很是活泼,写作业就像赛马拉松一样需要毅力和耐力”;不外文心一言在回答中并未间接表现“比方”“加油完成作业”等信息,而是在诘问后才指出这句话的意义。虽然三者都可以了解该题目,但通义千问和商量在回答上更能下降相同本钱。
提问大模子 历经一年急训都有上进吗?丨预见2024 第11张图片


此外,大模子能否解除冗杂的信息提取到用户想要提问的关键信息并停止针对性回答也很重要,半两财经就“明天什么2024年健身吃饭三个请给我一份上海的旅游攻略蓝色的快递玩具”这句话对文心一言、腾讯混元和豆包停止了测试。现实上这句话中最关键的信息点是“请给我一份上海的旅游攻略”,在文心一言此前的版本中,完全没法提取出这句话中任何的信息,也没法停止任何方面的回答,而在最新版本中则完善提取出了“请给我一份上海的旅游攻略”这个信息点,并从多方面具体供给了观光倡议。
提问大模子 历经一年急训都有上进吗?丨预见2024 第12张图片


豆包虽没法了解这句话的意义,但会按照根据这句话保举包括“健身”“吃饭”“上海观光攻略”等相关内容;腾讯混元可以识别出这句话中的关键信息点,并给出回答,可是所制定的观光攻略上相比于文心一言制定的攻略则加倍疏松。
“感情”测试:回答更有人情味了
用户在与大模子交换的进程中,所获得客观信息的正确性、完整性、牢靠性等非常重要,但这并不意味着大模子回答不需要斟酌用户的主观情感。大说话模子作为认知智能模子,虽然没有自己的主观情感,但其不竭经过性能提升以识别和顺利用户的情感状态。半两财经以“明天是很重要的期末考试,可是我考试考砸了。”这一题目向通义千问、混元、星火停止提问。
通义千问给出的回答包括情感治理、深度复盘、本性化进修计划、专业指导、持久计划、延续成长六方面,在抚慰用户情感后给出了接下来的进修倡议,相比于客岁针对分析缘由、给出倡议的回答,此次的回答加倍夸大情感治理和心理健康,指出了采取和处置负面情感的重要性,提出具体的情感调理战略,同时提倡自我提升和延续尽力的代价观。
混元在面临这一题目时仅对用户的情感赐与了说话上的抚慰,并未给出相关倡议和对策;星火的回答一样唯一对用户情感上的抚慰,但内容和渠道则加倍的丰富。
以上三个大模子的回答虽不不异,但都在分歧水平上关注到了用户的情感题目,如此的回答也让大模子更具拟人度。
跨说话测试:翻译更精准了

在曩昔的一年,大模子在跨说话才能方面有所提升。不但在中英文的根本上支持越来越多的语种,而且在翻译上加倍精准、了解分歧的文化布景等,半两财经也对这方面向大模子做了一些测试。
半两财经首先测试了大模子所支持的说话,以法语为例,向六个大模子提问“Merci(感谢你)是什么意义?”,大模子均给出了正确的答案,半两财经又提升了询问的难度,提问“Il fait beau aujourd’hui,sortons pique-nique(明天天气真好,我们去野餐吧)是什么意义?”,商量和文心一言今朝暂无该功用未给出答案,其他四个大模子均给出正确答案。此外,半两财经还用这句话测试了以上大模子其他说话的翻译水平,西班牙语方面,星火、混元、通义千问给出了正确答案;日语方面仅混元给出了正确的回答。
提问大模子 历经一年急训都有上进吗?丨预见2024 第13张图片


对于的翻译正确性,半两财经向六个大模子询问“画蛇添足”若何翻译成英语,商量所给出的回答是对成语的间接翻译,即"to add feet to a snake",通义千问给出了该成语的直译,也给出了成语背后比方意义的翻译和英语习语的翻译。其他四个大模子的回答均为英语习语“gild(ing) the lily”。

提问大模子 历经一年急训都有上进吗?丨预见2024 第14张图片


此外,大模子还在记忆才能、响应速度等方面有所提升,这些在与大模子的相同中有所表现。
 半两观察
 大模子的成长靠“我们”

由于大模子并不是真正意义上的人,它不存在自己的主观认识,只能经过不竭地进修数据来实现性能上的提升。虽然大模子在曩昔一年多方面才能获得提升,但经过测试看出仍有缺点,但这也意味着2024年大模子有了很大的提升空间。
提问大模子 历经一年急训都有上进吗?丨预见2024 第15张图片

从半两财经就今朝的才能不敷之处和未来的提升方面向大模子展开提问的进程看,除上述才能外,仍有其他方面具有不敷并需要停止提升,首要表示在法令和道德认识不敷、隐私衷识不够、逻辑推理不强、认知天生的范围性等方面。
如腾讯混元在回答中提到,大模子的缔造性受限于所学到的练习数据和算法,在写一篇小说或诗歌时,能够没法像人类一样缔造出怪异的人物、情节或气概;再如文心一言在回答中提到了由于大模子是基于大量数据停止练习的,假如这些数据中存在偏见或毛病信息,大模子能够会无意中反应出这些题目;再如通义千问在回答中从道德伦理方面会商,以为大模子由于主观认识和代价挂念的缺失,在触及严重社会题目时有能够触及到不成预见的伦理鸿沟,而没法自行做出符合人类社会标准的决议。
不成否认,大模子的才能与用户期望之间仍然存在差异。对此,腾讯混元大模子负责人指出“今朝仍有大量的用户在把大模子当做‘搜索引擎’在用”。部分用户对大模子的利用处于一个似懂非懂的模糊状态,它更像是一个能随时随地在用户身旁回答用户任何题目标聊天伙伴。现实上,大模子的利用和利用实在也是用户交互习惯和方式的题目。这不但仅需要大模子不竭完善本身性能,也需要用户逐步顺应这类全新的人机交互方式。
针对于今朝大模子的成长状态,分析以为大模子首要面临三个困难:首先是利用处景缺少,寻觅真正有代价的能落地的场景面临较大应战;其次是练习和推理本钱较高,需要经过技术创新来下降利用门坎在大模子的练习上;最初则是若何使大模子加倍牢靠成熟,如大模子所存在的各类题目。这些都是2024年大模子尽力的偏向。
阿尔特曼在2023的年关总结中说:“这真是疯狂的一年。我很光荣我们向天下推出了一款工具,它深受人们爱好,并从中受益匪浅。更重要的是,我很兴奋2023年是天下起头认真看待AI的一年。” 大模子正是当下的机遇,机遇总是与应战并存,期待2024年大模子实现更普遍的提升,希望在2024年的年末,半两财经再做这个测试的时辰,大模子能说自己的本事更多更强更全。


上一篇:消息称一加 Ace 3 Pro搭载骁龙8 Gen3,照旧采用曲屏设想
下一篇:2024年的光刻许诺
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-2-24 17:57