总部位于纽约市的人工智能初创公司亚瑟宣布推出Arthur Bench,这是一款开源工具,用于评估和比较大型语言模型的性能,例如OpenAI的GPT-3.5 Turbo和Meta的LLaMA 2。
“通过Bench,我们创建了一个开源工具,帮助团队深入了解LLM提供者,不同的提示和增强策略以及定制培训制度之间的差异,”亚瑟首席执行官兼联合创始人Adam Wenchel在一份新闻声明中说。
Arthur Bench允许公司在其特定用例上测试不同语言模型的性能。它提供了比较模型准确性、可读性、对冲和其他标准的指标。
对于那些多次使用LLM的人来说,“对冲”是一个特别明显的问题 - 这就是LLM提供无关语言总结或暗示其服务条款或编程约束的地方,例如说“作为人工智能语言模型......”,这通常与用户的期望响应无关。
“这些是可能与您的特定应用程序相关的一些微妙的行为差异,”Wenchel在接受VentureBeat的独家视频采访时说。
亚瑟已经包括了许多用于比较LLM性能的入门标准,但由于该工具是开源的,因此使用它的企业可能会添加自己的标准以满足他们的需求。
“你可以抓住用户提出的最后100个问题,并针对所有模型运行它们。然后Arthur Bench将突出显示答案截然不同的地方,以便您可以手动查看这些答案,“Wenchel解释说,并补充说目标是帮助企业在采用人工智能时做出明智的决定。
Arthur Bench 加速了基准测试,并将学术措施转化为现实世界的业务影响。该公司使用统计措施和分数的组合以及对其他LLM的评估来并排对所需LLM的反应进行评分。
Wenchel表示,金融服务公司已经在使用Arthur Bench来更快地生成投资论文和分析。
汽车制造商已经将他们的设备手册与许多页面的高度具体的技术指南一起使用,并使用Arthur Bench来创建LLM,该LLM能够回答客户查询,同时快速准确地从所述手册中获取信息,同时减少幻觉。
另一个客户,企业媒体和出版平台Axios HQ,也在其产品开发方面使用Arthur Bench。
“Arthur Bench帮助我们开发了一个内部框架,以跨功能扩展和标准化LLM评估,并使用有意义和可解释的指标向产品团队描述性能,”Axios HQ的数据科学家Priyanka Oberoi在给VentureBeat的一份声明中说。
亚瑟是开源的 Bench,因此任何人都可以免费使用和贡献它。这家初创公司认为,开源方法会带来最好的产品,并有机会通过团队仪表板获利。
亚瑟还宣布与Amazon Web Services和谷歌云合作开展黑客马拉松,以鼓励开发人员为Arthur Bench构建新的指标。
Wenchel表示,AWS用于选择和部署各种LLM的基岩环境与Arthur Bench“在哲学上非常一致”。
“你如何理性地决定哪些LLM适合你?”温切尔说。“这很好地补充了AWS战略。
该公司今年早些时候推出了Arthur Shield,以监测大型语言模型的幻觉和其他问题。