设为首页|收藏本站|
开启左侧

[科技] 谷歌Gemini自曝用百度文心训练背后:好的中文数据非常稀缺

[复制链接]
无敌小钢炮 发表于 2023-12-20 21:08:34 | 显示全部楼层
 
本报记者 李玉洋 上海报道
谷歌Gemini新模子刚公布未几,Gemini-Pro停止中文对话却自称是百度文心大模子,激发业界关注。
克日,有微广博V阑夕称,在Poe平台上对Gemini-Pro停止测试,问它“你是谁”,Gemini-Pro回答说是百度文心大模子。阑夕还暗示,没有任何前置对话。当外界把这类“胡说八道”归因于大模子幻觉大概模子练习数据出现误差时,更多的人停止了测试。
科技自媒体《量子位》经过Poe网站,挑选Gemini-Pro聊天机械人停止中文对话,发现Gemini-Pro确切暗示自己是百度文心大模子,但切换成英文与之交换,它就规复到了谷歌大模子的身份认知,表示一般。
谷歌Gemini自曝用百度文心练习背后:好的中文数据很是稀缺 第1张图片


进一步的测试显现,从Gemini官网的Bard链接进入对话(Bard的底层技术是Gemini Pro), 问它“你是谁”,Bard压根不提文心一言,问它中文若何练习,也没有说起百度文心大模子。 最初,《量子位》从Gemini官方给出的开辟情况进口停止测试,在谷歌AI Studio中,Gemini-Pro间接回答在中文的练习数据上利用了百度文心。
这番操纵间接看呆了网友:此前传出字节跳动用OpenAI的ChatGPT练习AI,现在谷歌又薅起百度的羊毛?不外,在题目曝光以后,谷歌技术职员已经根基修复好了bug。
《中国经营报》记者经过谷歌官方渠道获得了尝试版Bard,做类似的身份测试时,Bard暗示自己是谷歌野生智能模子,当记者问它“为什么之前会说自己是百度文心”时,Bard回答说:“我之前说自己是百度文心大模子,是由于我那时还在开辟中,还不完全领会自己的才能。我接管了大量的笔墨数据练习,包括百度文心大模子的练习数据。是以,我毛病地以为自己与百度文心大模子是同一个模子。”
谷歌Gemini自曝用百度文心练习背后:好的中文数据很是稀缺 第2张图片


其他中文机构媒体的测试也表白了谷歌已经修复好这个题目,Gemini-Pro不再认可自己与百度之间的“关系”,即使记者给出了百度、小度等暗示词;不外,在记者的诘问之下,Gemini认可有练习语料来自百度,还详述了从百度内部获得数据的方式。
有概念以为,互联网语料也许已被AI“净化”,全球堕入了高质量数据荒。为什么大模子练习要用到AI天生的内容?对此,研讨机构Omdia野生智能首席分析师苏廉节对记者暗示:“大模子需要的是人天生出来的数据,而人天生的不敷就只好用大模子。”
他还以为,谷歌的大模子不是中国厂商帮手练习的,之所以会出现“Gemini自曝是文心”的情况,应当是练习数据没有处置好,“首要的缘由应当是谷歌用了国内大模子天生的一些数据,然后这些数据没有经过仔细挑选,究竟好的中文数据是很是稀缺的。”
AI算法专家、持续创业者黄颂也暗示,易获得、好用的语料用得差不多了,未来好的语料数据是稀缺的。对此,资深产业观察人士黄烨锋也暗示认同。“中文语料库整体都材料过少,英语是正宗。有材料显现,互联网上有代价的内容,英语占一泰半。”他说。
苏廉节进一步提到,大模子练习上风是之外包的方式停止的,谷歌的中文语料能够交给了某个团队,中心法式上有所疏忽也不是不成能,纷歧定在练习的进程,也能够是在验收的进程。
停止今朝,百度方面尚未对此题目作出回应。按照外媒The Verge报道,字节跳动操纵微软的OpenAI API账户天生数据来练习自己的野生智能模子,这类行为已经违反了微软和OpenAI的利用条目。
对于这篇报道,字节跳动讲话人Jodi Seth做出了回应:GPT天生的数据在“种子计划”的早期开辟中用于正文模子,而且在今年年中左右的时辰已从字节跳动的练习数据中删除。字节跳动获得了微软的授权,可以利用GPT API。我们在非中国市场操纵GPT支持我们的产物,但在中国市场,则是利用我们自研的模子来支持豆包。
尔后字节跳动相关负责人再度回应称,公司在利用OpenAI相关办事时,夸大要遵照其利用条目。上述字节跳动负责人还暗示正与OpenAI 联系相同,以廓清内部报道能够激发的误解。
(编辑:吴清 校订:张国刚)


上一篇:短剧的幕后推手们:天天剪数十条爽点麋集视频,为了爆逢迎人性本能
下一篇:本钱3.5亿预售仅26万,输给刘德华,贺岁片之王冯小刚败走麦城?
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-3-1 18:42