设为首页|收藏本站|
开启左侧

[科技] 谷歌Gemini自曝用百度文心训练背后:好的中文数据非常稀缺

[复制链接]
76457 0
无敌小钢炮 发表于 2023-12-20 21:08:34 | 只看该作者 打印 上一主题 下一主题
 
本报记者 李玉洋 上海报道
谷歌Gemini新模型刚发布不久,Gemini-Pro进行中文对话却自称是百度文心大模型,引发业界关注。
近日,有微博大V阑夕称,在Poe平台上对Gemini-Pro进行测试,问它“你是谁”,Gemini-Pro回答说是百度文心大模型。阑夕还表示,没有任何前置对话。当外界把这种“胡言乱语”归因于大模型幻觉或者模型训练数据出现偏差时,更多的人进行了测试。
科技自媒体《量子位》通过Poe网站,选择Gemini-Pro聊天机器人进行中文对话,发现Gemini-Pro确实表示自己是百度文心大模型,但切换成英文与之交流,它就恢复到了谷歌大模型的身份认知,表现正常。
谷歌Gemini自曝用百度文心训练背后:好的中文数据非常稀缺 第1张图片


进一步的测试显示,从Gemini官网的Bard链接进入对话(Bard的底层技术是Gemini Pro), 问它“你是谁”,Bard压根不提文心一言,问它中文如何训练,也没有提及百度文心大模型。 最后,《量子位》从Gemini官方给出的开发环境入口进行测试,在谷歌AI Studio中,Gemini-Pro直接回答在中文的训练数据上使用了百度文心。
这番操作直接看呆了网友:此前传出字节跳动用OpenAI的ChatGPT训练AI,现在谷歌又薅起百度的羊毛?不过,在问题曝光之后,谷歌技术人员已经基本修复好了bug。
《中国经营报》记者通过谷歌官方渠道获取了实验版Bard,做类似的身份测试时,Bard表示自己是谷歌人工智能模型,当记者问它“为什么之前会说自己是百度文心”时,Bard回答说:“我之前说自己是百度文心大模型,是因为我当时还在开发中,还不完全了解自己的能力。我接受了大量的文字数据训练,包括百度文心大模型的训练数据。因此,我错误地认为自己与百度文心大模型是同一个模型。”
谷歌Gemini自曝用百度文心训练背后:好的中文数据非常稀缺 第2张图片


其他中文机构媒体的测试也表明了谷歌已经修复好这个问题,Gemini-Pro不再承认自己与百度之间的“瓜葛”,即使记者给出了百度、小度等暗示词;不过,在记者的追问之下,Gemini承认有训练语料来自百度,还详述了从百度内部获得数据的方式。
有观点认为,互联网语料或许已被AI“污染”,全球陷入了高质量数据荒。为什么大模型训练要用到AI生成的内容?对此,研究机构Omdia人工智能首席分析师苏廉节对记者表示:“大模型需要的是人生成出来的数据,而人生成的不足就只好用大模型。”
他还认为,谷歌的大模型不是中国厂商帮忙训练的,之所以会出现“Gemini自曝是文心”的情况,应该是训练数据没有处理好,“主要的原因应该是谷歌用了国内大模型生成的一些数据,然后这些数据没有经过仔细筛选,毕竟好的中文数据是非常稀缺的。”
AI算法专家、连续创业者黄颂也表示,易得到、好用的语料用得差不多了,未来好的语料数据是稀缺的。对此,资深产业观察人士黄烨锋也表示认同。“中文语料库整体都资料过少,英语是正宗。有资料显示,互联网上有价值的内容,英语占一大半。”他说。
苏廉节进一步提到,大模型训练优势是以外包的方式进行的,谷歌的中文语料可能交给了某个团队,中间程序上有所疏忽也不是不可能,不一定在训练的过程,也可能是在验收的过程。
截至目前,百度方面尚未对此问题作出回应。根据外媒The Verge报道,字节跳动利用微软的OpenAI API账户生成数据来训练自己的人工智能模型,这种行为已经违反了微软和OpenAI的使用条款。
对于这篇报道,字节跳动发言人Jodi Seth做出了回应:GPT生成的数据在“种子计划”的早期开发中用于注释模型,并且在今年年中左右的时候已从字节跳动的训练数据中删除。字节跳动得到了微软的授权,可以使用GPT API。我们在非中国市场利用GPT支持我们的产品,但在中国市场,则是使用我们自研的模型来支持豆包。
而后字节跳动相关负责人再度回应称,公司在使用OpenAI相关服务时,强调要遵守其使用条款。上述字节跳动负责人还表示正与OpenAI 联系沟通,以澄清外部报道可能引发的误解。
(编辑:吴清 校对:张国刚)


上一篇:短剧的幕后推手们:每天剪数十条爽点密集视频,为了爆迎合人性本能
下一篇:成本3.5亿预售仅26万,输给刘德华,贺岁片之王冯小刚败走麦城?
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-7-27 13:47