激光网
当前位置: 首页 > 人工智能 > 正文

Meta的开源代码生成LLM Code Llama

2023-10-30 16:39:01  来源:激光网原创    

  Meta 最近开源了 Code Llama,一个代码生成 LLM。 它基于 Llama 2 的基本模型,并受相同的社区许可的约束。 Code Llama 使用 500B 代码令牌进行微调,并提供三种模型大小,最高参数为 34B。 在代码生成基准的评估中,该模型的表现优于所有其他开源模型,可与 ChatGPT 相媲美。

  在 Code Llama 发布时,Meta 采用了 Llama 2 的基本模型,分为三种尺寸。 这些都使用“几乎重复”的代码数据集以及与代码相关的自然语言进行了微调。 除了基本版本外,Meta 还为每种型号尺寸准备了两种变体。 Code Llama - Python 使用 Python 代码进一步微调,Code Llama - Instruct 使用自然语言指令进行微调。 商业使用许可证共有九个版本。 根据 Meta 的说法:

  Code Llama 旨在支持各行各业的软件工程师,包括研究、工业、开源项目、非政府组织和企业。 但是,与基础和讲师模型可以提供的用例相比,仍有更多的用例需要支持。 我们希望 Code Llama 能够激励其他人使用 Llama 2,并为研究和商业产品创造新的创新工具。

  InfoQ 之前曾报道过其他代码生成 AI 模型,包括 OpenAI 的 Codex,它基于 GPT-3,为 Github 的 Copilot 提供支持。 与 GPT 系列中的其他型号一样,Codex 只能通过 OpenAI 的 Web 服务 API 获得。 出于这个原因,正在开发诸如 BigCode 的 StarCoder 之类的开放模型。 StarCoder 还具有使用“许可许可证”代码进行训练的优势,并且其输出的使用不太可能导致违反许可证。 Llama 2 及其衍生产品被许可用于商业用途,但 Code Llama 的许可证规定其可交付成果“可能受第三方许可的约束”。

  除了在代码中微调模型外,Meta 还使用长上下文微调来增加模型可以处理的输入长度。我也去了。 Llama 2 使用高达 4k 代币的序列开发,而 Code Llama 的 LCFT 包括高达 16k 的序列。 Meta 的目标是“解锁用于插补和综合的存储库级推理”,让模型能够访问整个项目的代码,而不仅仅是特定函数和源文件。 根据 Meta 的实验,该模型对高达 100k 个代币的序列表现出“稳定行为”。

  在关于该模型的 X 帖子中,托罗斯大学助理教授 Furkan Gözükara 指出,GPT-4 在 HumanEval 基准测试中仍然优于 Code Llama。 另一位用户回答说,GPT-4 “不是 34B”,这意味着 GPT-4 是一个更大的模型。 程序员的人工智能助手 pfed 的制造商发布了具有 34B 参数版本的 Code Llama-Python 的调整版本,声称在 HumanEval 上取得了 69.5% 的pass,超过了 GPT-4 上公布的 67% 分数。 其中一位开发人员在 Hacker News 上讨论了他们的版本,他说:

  该模型仍处于起步阶段,预计将在下周进行改进。

  Code Llama 的源代码可在 GitHub 上找到。 模型文件可在 Meta 提交审批后下载。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com