首页 综合 > 内容页

黄铁军:ChatGPT训练只用了百分之几的中文数据 世界滚动

来源:和讯网 发布日期: 2023-06-17 14:02:28


【资料图】

凤凰网科技讯 6月16日消息,凤凰网科技《浪潮》对话智源研究院黄铁军,谈到对中英文大模型算法分析的看法,黄铁军表示,ChatGPT训练时用的英文数据多,中文数据只有百分之几,所以英文表现得比中文好。

凤凰网科技《浪潮》:我们刚才也提到了一个上下游,因为要进入到这个生态里边,要投入很多的技术和内容。我们在刚接触ChatGPT的时候发现用英文比用中文更好沟通。它们的理解,它们的算法,都是以英文为基础。您觉得中文的这个大模型的算法分析和英文的这些哪一个更加容易,或者是哪个更困难一些?

黄铁军: ChatGPT当初训练的时候用的确实是英文数据多,中文数据少,而且据我们了解,他们也用了智源中文的数据集,但他们用的中文数据只有百分之几,所以它英文表现得比中文好,这也是自然而然的。因为我们刚才说大模型的智能主要是来源于数据,那数据的分布也就决定了它的智能输出特性的不同。中文的这个数据的建设,确实对于未来大模型发展来说是特别重要的一项工作。

关键词:

Copyright   2015-2022 南极供销网版权所有  备案号: 粤ICP备2022077823号-13   联系邮箱: 317 493 128@qq.com