热文:MosaicML 推出 300 亿参数模型,训练成本 70 万
(资料图)
AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。
MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。
MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。
300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。
其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。
除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。
开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。
关键词:
您可能也感兴趣:
为您推荐
全球速讯:固定收益点评:煤价大跌后 如何看待煤炭债风险?
远域慑阻 协同作战!东部战区空军航空兵出击 世界焦点
【全球新视野】司法拍卖股权越拍越高么 当前信息
排行
最近更新
- 热文:MosaicML 推出 300 亿参数模型,训练成本 70 万
- 把“空间站”建在地球上 热点评
- 环球今日讯!什么乌龟(养什么乌龟比较好?)
- 十证齐发!武汉蔡甸重点项目“承诺即开工”获企业力赞
- 一张粽叶包万物!700多年前的粽子长什么样?
- 外资企业看好中国 持续增资扩产
- 俄罗斯莫斯科市长:目前莫斯科正在进行反恐行动 环球微头条
- 推动品牌建设上台阶
- 沉浸式体验!沪苏轨交11号线“牵手”亮点满满|全球要闻
- 聚焦“四个破除” 解决民生痼疾 焦点快播
- 数字文明尼山对话:过去未去,未来已来!-通讯
- 什么牌子的平板好用(平板电脑什么牌子好用?) 天天新资讯
- 天天报道:张店要给这些人发钱了!符合条件的快申报
- 世界动态:中国给越南送电,背后的原因,看懂的人不多
- 创业板健康概念股名单_创业板健康概念股一览(6/21)-世界热资...
- 房产证上会有抵押状况吗 当前报道
- 每日热闻!投壶、射五毒、“粽”动员 济南千佛山推出六大场景...
- 【快播报】外资企业看好中国 持续增资扩产
- 天天热文:2023年山东省中小学教师合唱展演活动圆满落幕
- 传奇从这里开始!纽维尔老男孩晒照祝梅西36岁生日快乐|环球观速讯
- 市场监管总局:推动气瓶安全排查整治 加强燃气用品质量安全监管
- 中金公司:港股“双柜台”是推动人民币国际化重要一步
- 2023年河南高招7月8日开始录取|环球热消息
- 语文一年级—高怎么组词?|世界新动态
- “泰坦”号悲剧背后:前赴后继的富人极限旅游
- 高考志愿填报,必须要知道的15件事!_每日热门
- 高温橙色预警!京津冀鲁等地或再挑战40℃-信息
- 快乐假期,注意这几点
- 福建2023年高考成绩下午可查 录取控制线傍晚或发布
- 打造“果旅融合”新路径 小小百香果成为“致富果”“幸福果”