当前位置：首页 > 人工智能 > 正文

AI公司MosaicML推出70亿参数模型MPT-7B-8 一次可以处理8000字文本

2023-07-25 17:45:44　来源：IT之家　

　　AI 创业公司 MosaicML 近日发布了其 70 亿参数模型 MPT-7B-8K，据悉，该模型一次可以处理 8000 字文本，相当擅长处理长文重点摘要和问答，还能在 MosaicML 平台上根据特定任务，进一步微调相关配置。

　　图源 Huggingface

　　据悉，系列模型采用了 150 万个 Token，并以 256 块 H100 GPU 花 3 天完成模型训练而成。MosaicML 本次发布了 3 个版本模型，包括 MPT-7B-8k、MPT-7B-8k-Instruct 和 MPT-7B-8k-Chat。

　　图源 Huggingface

　　其中，第一个版本 MPT-7B-8k、是以 Transformer 解码器为基础，并以 FlashAttention 和 FasterTransformer 机制来加速训练与推论，能一次处理 8000 字文本，MosaicML 公司表示，该模型开源、允许商用。

　　第二个版本 MPT-7B-8k-Instruct 是以第一个版本 MPT-7B-8k 微调而成，MosaicML 公司表示，MPT-7B-8k-Instruct 模型可处理长篇指令，特别注重于生成“摘要和问答”，该模型一样开源且可商用。

　　第三个版本 MPT-7B-8k-Chat 则是机器人对话式的 AI 模型，MosaicML 公司宣称，该模型额外多用了 15 亿个聊天数据 Token，在第一版模型 MPT-7B-8k 之上继续训练而成，该模型开源，但不允许商用。

　　此前报道，MosaicML 公司也推出了一款号称训练成本仅为竞品零头的 MPT-30B 开源模型，该公司日前已将所有开源模型发布于 Huggingface 平台，感兴趣的小伙伴们可以前往进行相关了解，还可以在本地硬件上使用自己的数据，在下载后，对模型进行各种微调。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com

榜单