当前位置：首页 > 人工智能 > 正文

Meta的开源代码生成LLM Code Llama

2023-10-30 16:39:01　来源：激光网原创　

　　Meta 最近开源了 Code Llama，一个代码生成 LLM。它基于 Llama 2 的基本模型，并受相同的社区许可的约束。 Code Llama 使用 500B 代码令牌进行微调，并提供三种模型大小，最高参数为 34B。在代码生成基准的评估中，该模型的表现优于所有其他开源模型，可与 ChatGPT 相媲美。

　　在 Code Llama 发布时，Meta 采用了 Llama 2 的基本模型，分为三种尺寸。这些都使用“几乎重复”的代码数据集以及与代码相关的自然语言进行了微调。除了基本版本外，Meta 还为每种型号尺寸准备了两种变体。 Code Llama - Python 使用 Python 代码进一步微调，Code Llama - Instruct 使用自然语言指令进行微调。商业使用许可证共有九个版本。根据 Meta 的说法：

　　Code Llama 旨在支持各行各业的软件工程师，包括研究、工业、开源项目、非政府组织和企业。但是，与基础和讲师模型可以提供的用例相比，仍有更多的用例需要支持。我们希望 Code Llama 能够激励其他人使用 Llama 2，并为研究和商业产品创造新的创新工具。

　　InfoQ 之前曾报道过其他代码生成 AI 模型，包括 OpenAI 的 Codex，它基于 GPT-3，为 Github 的 Copilot 提供支持。与 GPT 系列中的其他型号一样，Codex 只能通过 OpenAI 的 Web 服务 API 获得。出于这个原因，正在开发诸如 BigCode 的 StarCoder 之类的开放模型。 StarCoder 还具有使用“许可许可证”代码进行训练的优势，并且其输出的使用不太可能导致违反许可证。 Llama 2 及其衍生产品被许可用于商业用途，但 Code Llama 的许可证规定其可交付成果“可能受第三方许可的约束”。

　　除了在代码中微调模型外，Meta 还使用长上下文微调来增加模型可以处理的输入长度。我也去了。 Llama 2 使用高达 4k 代币的序列开发，而 Code Llama 的 LCFT 包括高达 16k 的序列。 Meta 的目标是“解锁用于插补和综合的存储库级推理”，让模型能够访问整个项目的代码，而不仅仅是特定函数和源文件。根据 Meta 的实验，该模型对高达 100k 个代币的序列表现出“稳定行为”。

　　在关于该模型的 X 帖子中，托罗斯大学助理教授 Furkan Gözükara 指出，GPT-4 在 HumanEval 基准测试中仍然优于 Code Llama。另一位用户回答说，GPT-4 “不是 34B”，这意味着 GPT-4 是一个更大的模型。程序员的人工智能助手 pfed 的制造商发布了具有 34B 参数版本的 Code Llama-Python 的调整版本，声称在 HumanEval 上取得了 69.5% 的pass，超过了 GPT-4 上公布的 67% 分数。其中一位开发人员在 Hacker News 上讨论了他们的版本，他说：

　　该模型仍处于起步阶段，预计将在下周进行改进。

　　Code Llama 的源代码可在 GitHub 上找到。模型文件可在 Meta 提交审批后下载。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com