黄铁军：ChatGPT训练只用了百分之几的中文数据世界滚动

来源：和讯网发布日期： 2023-06-17 14:02:28

【资料图】

凤凰网科技讯 6月16日消息，凤凰网科技《浪潮》对话智源研究院黄铁军，谈到对中英文大模型算法分析的看法，黄铁军表示，ChatGPT训练时用的英文数据多，中文数据只有百分之几，所以英文表现得比中文好。

凤凰网科技《浪潮》：我们刚才也提到了一个上下游，因为要进入到这个生态里边，要投入很多的技术和内容。我们在刚接触ChatGPT的时候发现用英文比用中文更好沟通。它们的理解，它们的算法，都是以英文为基础。您觉得中文的这个大模型的算法分析和英文的这些哪一个更加容易，或者是哪个更困难一些？

黄铁军： ChatGPT当初训练的时候用的确实是英文数据多，中文数据少，而且据我们了解，他们也用了智源中文的数据集，但他们用的中文数据只有百分之几，所以它英文表现得比中文好，这也是自然而然的。因为我们刚才说大模型的智能主要是来源于数据，那数据的分布也就决定了它的智能输出特性的不同。中文的这个数据的建设，确实对于未来大模型发展来说是特别重要的一项工作。

关键词：

上一篇:斯狄渢热水器官网（斯狄渢的热水器好用吗）|焦点滚动下一篇:最后一页

黄铁军：ChatGPT训练只用了百分之几的中文数据世界滚动

黄铁军：ChatGPT训练只用了百分之几的中文数据世界滚动

斯狄渢热水器官网（斯狄渢的热水器好用吗）|焦点滚动

户口迁移网上办 “减证便民”惠万家|焦点日报

走进龙舟节 | 全国第二十一届旅游门券收藏展即将拉开帷幕

天全县成功拍卖出让六宗土地快报

NFT信徒提出更多对于未来的畅想表示穷人可以在游戏中当NPC

将 NFT 加入游戏中受到了游戏玩家和粉丝的集体反感，而许多 NFT 游戏基本上都没有获得成功。根据 PC Gamer 总结，原因基本上可以归

杭州本轮疫情首例确诊患者治愈出院

弃婴“满满”缘何“生活”在医院半年之久？

吉林六所师范院校成立联盟探索区域教育改革新模式

金发碧眼“徽州人” 美国小伙与黄山的不解情缘

广西东兴新增4例新冠肺炎本土确诊病例

猪肉价格出现“十连涨” 有关部门将加强市场监管

贵州罗甸：保护区内饭馆公然销售野生鱼，16名河长为何管不好两条河？

四川南部驻村“方妹子”：挂职不是挂“名”，做事不是做“客”

广西东兴公布1例确诊病例基因测序结果：为德尔塔进化分支

浙大二院“会战”上虞：一声谢谢让我们充满力量

“神州北极”漠河：极寒-43.5℃ 冰雾罩城

国内首套冷链运输电子束消杀装备“破冰者”签约投产

2022年起江浙沪籍海船转籍登记实现“不停航办证”

黄铁军：ChatGPT训练只用了百分之几的中文数据 世界滚动

黄铁军：ChatGPT训练只用了百分之几的中文数据 世界滚动

斯狄渢热水器官网（斯狄渢的热水器好用吗）|焦点滚动

户口迁移网上办 “减证便民”惠万家|焦点日报

走进龙舟节 | 全国第二十一届旅游门券收藏展即将拉开帷幕

天全县成功拍卖出让六宗土地 快报

NFT信徒提出更多对于未来的畅想 表示穷人可以在游戏中当NPC

将 NFT 加入游戏中受到了游戏玩家和粉丝的集体反感，而许多 NFT 游戏基本上都没有获得成功。根据 PC Gamer 总结，原因基本上可以归

杭州本轮疫情首例确诊患者治愈出院

弃婴“满满”缘何“生活”在医院半年之久？

吉林六所师范院校成立联盟 探索区域教育改革新模式

金发碧眼“徽州人” 美国小伙与黄山的不解情缘

广西东兴新增4例新冠肺炎本土确诊病例

猪肉价格出现“十连涨” 有关部门将加强市场监管

贵州罗甸：保护区内饭馆公然销售野生鱼，16名河长为何管不好两条河？

四川南部驻村“方妹子”：挂职不是挂“名”，做事不是做“客”

广西东兴公布1例确诊病例基因测序结果：为德尔塔进化分支

浙大二院“会战”上虞：一声谢谢让我们充满力量

“神州北极”漠河：极寒-43.5℃ 冰雾罩城

国内首套冷链运输电子束消杀装备“破冰者”签约投产

2022年起江浙沪籍海船转籍登记实现“不停航办证”

黄铁军：ChatGPT训练只用了百分之几的中文数据世界滚动

黄铁军：ChatGPT训练只用了百分之几的中文数据世界滚动

天全县成功拍卖出让六宗土地快报

NFT信徒提出更多对于未来的畅想表示穷人可以在游戏中当NPC

吉林六所师范院校成立联盟探索区域教育改革新模式