登陆注册
12770

李开复零一万物公司回应大模型争议:承认模型结构基于GPT结构

站长网2023-11-15 10:06:020

要点:

1. 李开复旗下公司「零一万物」的大模型 Yi-34B 引发争议,因研究者发现其基本采用 LLaMA 架构,但只是对两个张量进行了重命名。

2. 有关该模型的性能和成就,包括上下文窗口大小超过200k、一次处理40万汉字、在 Hugging Face 全球开源模型排行榜中获得双料冠军等。

3. 在社区中有人指出,Yi-34B 实际上是对 LLaMA 代码的一次重构,但未作实质性改变,引起对虚假宣传、许可证违规等问题的疑虑。公司回应表示基于 GPT 结构,并在模型训练中遇到的一些需求导致了代码重命名。

最近,「零一万物」公司旗下的大模型 Yi-34B 因使用 LLaMA 架构但改变张量名引发争议。这一争议中,研究者指出其代码实际上是对 LLaMA 代码的一次重构,只是未作实质性改变。社区担心这可能违反了许可证规定,且未经过框架支持的外部代码附加可能存在安全风险。

Yi-34B 的成就在开源大模型领域引起了广泛关注,其上下文窗口大小超过200k,能处理40万汉字,成为全球开源模型双料冠军。然而,争议的核心在于其是否真正符合 LLaMA 的许可协议,以及对模型代码的更改是否属于虚假宣传。

在社区的讨论中,有人提到模型的性能参数和配置存在疑虑,包括模型被标榜为32K 模型实际上配置为4K 模型的问题。此外,对于模型的微调数据和基准测试的信息也没有充分提供,引起了社区的疑虑。

「零一万物」公司回应称,他们的模型结构基于 GPT 成熟结构,但在训练实验中由于需求对代码进行了更名。他们强调模型的结构只是其中一部分,投入了大量研发工作在数据工程、训练方法、评估方法等方面,这是他们在大模型预训练阶段的核心技术护城河。最后,他们表示尊重社区的反馈,将代码进行更新以更好地融入 Transformer 生态。

综合来看,争议集中在「零一万物」公司的 Yi-34B 模型是否违反了开源协议,以及其在性能参数和代码修改上的透明度。这一事件提醒开源社区对于模型的合规性和透明度的重要性,同时也反映了在开源领域中公司的技术选择可能引发广泛关注和争议的现实。

0000
评论列表
共(0)条