热文：MosaicML 推出 300 亿参数模型，训练成本 70 万

2023-06-25 03:35:02 来源: OSCHINA

(资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B，单从参数来看，这个模型具有 300 亿参数，放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头，有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示，MPT-30B 的训练成本为 70 万美元，远低于训练 GPT-3 所需的数千万美元。此外，MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低，体积较小，它也可以更快速地被训练，并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型，可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室，相比以往，这使得每 GPU 的吞吐量增加了 2.4 倍以上，带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字，300 亿参数为什么这么特殊呢？MosaicML 首席科学家 Frankle 则解释道，首先 300 亿参数能够确保它可以在本地硬件上轻松运行，同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段，通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外，MosaicML 还专注于提高数据质量，以提高模型性能。他们目前正在开发工具，帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步，接下来他们将以降低成本为前提，推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型，开发者还可以在自己的硬件上用自己的数据对模型进行微调。

关键词：

热文：MosaicML 推出 300 亿参数模型，训练成本 70 万

您可能也感兴趣:

今日热点

夏季达沃斯论坛首次实现100%绿电供应热点聚焦

十证齐发！武汉蔡甸重点项目“承诺即开工”获企业力赞

通讯！丘北县气象台发布雷电黄色预警信号[Ⅲ级/较重] 【2023-06-23】

更多

更多

排行

最近更新

今日要闻

热文：MosaicML 推出 300 亿参数模型，训练成本 70 万

您可能也感兴趣:

今日热点

夏季达沃斯论坛 首次实现100%绿电供应 热点聚焦

十证齐发！武汉蔡甸重点项目“承诺即开工”获企业力赞

通讯！丘北县气象台发布雷电黄色预警信号[Ⅲ级/较重] 【2023-06-23】

为您推荐

全球微资讯！卡斯卡里诺：若加盟枪手，赖斯能起到范迪克和阿利松在红军的影响

全球速讯：固定收益点评：煤价大跌后 如何看待煤炭债风险？

远域慑阻 协同作战！东部战区空军航空兵出击 世界焦点

【全球新视野】司法拍卖股权越拍越高么 当前信息

更多

更多

排行

最近更新

今日要闻

夏季达沃斯论坛首次实现100%绿电供应热点聚焦

全球速讯：固定收益点评：煤价大跌后如何看待煤炭债风险？

远域慑阻协同作战！东部战区空军航空兵出击世界焦点

【全球新视野】司法拍卖股权越拍越高么当前信息