山姆·奥特曼经营的OpenAI引入了数据合作伙伴关系,它将与组织合作,生成用于训练人工智能模型的公共和私人数据集。
该公司的目标是与组织合作,帮助人工智能模型理解“所有主题、行业、文化和语言”,这需要尽可能广泛的训练数据集。
该公司在一份声明中表示:“数据合作伙伴关系旨在使更多的组织能够帮助引导人工智能的未来,并通过包含他们关心的内容,从对他们更有用的模型中受益。
ChatGPT 开发人员表示,它对反映人类社会的大规模数据集感兴趣,这些数据集还不容易向公众在线访问。
“我们可以使用任何形式,包括文本、图像、音频或视频。我们特别寻找能够表达人类意图的数据,跨越任何语言、主题和格式,“该公司指出。
OpenAI表示,它可以处理几乎任何形式的数据,并可以使用其下一代内部人工智能技术来帮助人们数字化和构建数据。
“例如,我们拥有世界一流的光学字符识别技术,可以将PDF等文件数字化,并拥有自动语音识别来转录口语,”该公司补充道。
该公司正在寻求合作伙伴,以帮助其创建用于训练语言模型的开源数据集。
“这个数据集将是公开的,任何人都可以在人工智能模型训练中使用。我们还将探索使用它来安全地训练其他开源模型。我们相信开源在生态系统中发挥着重要作用,“OPenAI说。