零一万物回应抄袭：对代码更名是为了充分测试模型

SANYAN 2023-11-15 17:39

三言科技消息就近日抄袭质疑，李开复旗下零一万物发表说明。

说明称，基本上国际主流大模型都是基于Transformer的架构，做attention，activation，normalization，positional embedding等部分的改动，LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异，全球开源社区基于主流架构的模型变化非常之多，生态呈现欣欣向荣，国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT/LLaMA 的架构。然而，大模型持续发展与寻求突破口的核心点不仅在于架构，而是在于训练得到的参数。

模型训练过程好比做一道菜，架构只是决定了做菜的原材料和大致步骤，这在大多数人的认知中也逐步形成共识。要训练出好的模型，还需要更好的“原材料”（数据）和对每一个步骤细节的把控（训练方法和具体参数）。由于大模型技术发展还在非常初期，从技术观点来说，行业共识是与主流模型保持一致的模型结构，更有利于整体的适配与未来的迭代。

对于代码改名，零一万物表示，初次开源过程中，发现用和开源社区普遍使用的LLaMA 架构会对开发者更为友好，对于沿用LLaMA部分推理代码经实验更名后的疏忽，原始出发点是为了充分测试模型，并非刻意隐瞒来源。零一万物对此提出说明，并表达诚挚的歉意。

近日，在Yi-34B 的 Hugging Face 开源主页上，开发者 ehartford 质疑称该模型使用了Meta LLaMA 的架构，只对两个张量（Tensor）名称进行了修改，分别为 input_layernorm 和 post_attention_layernorm。

大模型

上一篇李开复回应旗下大模型抄袭：就像手机app开发者不去自创全新基础架构

下一篇网易Q3净收入273亿元，自研大模型批量应用

SANYAN

文章总数: 397