腾讯发布星脉网络 2.0:大模型训练效率相比上代提升 20%
上一篇 /
下一篇 2024-07-02 10:35:50
腾讯昨日发布其自研星脉网络 2.0 版本,升级后的星脉网络支持单集群 10 万卡组网,网络通信效率比上一代提升 60%,
大模型训练效率提升 20%,故障定位从天级降低至分钟级。
腾讯自研交换机从 25.6T 升级到 51.2T,容量提升一倍;自研硅光模块从 200G 升级到 400G,速率提升一倍;搭载自研算力网卡;整机通信带宽 3.2T,为业界最高。
腾讯自研全新通信协议 TiTa2.0 的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法,将星脉网络的通信效率提升 30%,让大模型的训练效率提升 10%。
腾讯全新高性能集合通信库 TCCL2.0 采用 NVLINK+NET 异构并行通信,实现数据的并行传输。Auto-Tune Network Expert 自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。星脉网络通信性能提升 30%,让大模型的训练效率再提升 10%。
▲ 数据的并行传输(腾讯云)
TiTa 与 TCCL 升级带来的效果叠加,让星脉网络的通信效率共提升 60%,大模型训练效率共提升 20%。
相关阅读:
- 如何将大型语言模型(LLM)转换为嵌入模型 (liqianqian1116, 2024-6-03)
- 可信模型:确保您的LLM拥有良好的数据卫生 (liqianqian1116, 2024-6-04)
- 基于 Go 语言实现的 Ollama 大语言模型框架 (liqianqian1116, 2024-6-07)
- 传音与腾讯合作,手机将搭载 GVoice 游戏语音技术 (liqianqian1116, 2024-6-07)
- 大模型训练的GPU联手CPU显存优化分析方法 (liqianqian1116, 2024-6-13)
- 早报 | 比亚迪称某车企使用黑公关手段;华为同意不向微信收应用内交易费 (liqianqian1116, 2024-6-20)
- 力压GPT-4o!新王Claude 3.5 Sonnet来了,直接免费可用 (liqianqian1116, 2024-6-24)
- 早报 | 希腊推“一周工作6天”挨骂;腾讯游戏发布暑期未成年人限玩日历 (liqianqian1116, 2024-6-27)
- 字节跳动发布“豆包 MarsCode”AI 代码工具:国内开发者免费 (liqianqian1116, 2024-6-27)
- 字节大模型团队模型入选苹果最新CoreML模型 (liqianqian1116, 2024-7-02)
收藏
举报
TAG:
腾讯
大模型