华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。但是,在华为,昇腾万卡算力集群,已经可以做到近乎永不罢工了:-训练可用度达98%:这就好比你开着一辆车,全年365天里...
新质观察|万卡集群三问:城市该如何不掉队? 2024年春,深圳宣布建设“鹏城云脑Ⅲ”。竣工后,其算力规模预计高达16000P。几乎同时,中部一座省会城市却暂停原计划中的万卡集群,理由是预算未过审议。这不仅是一次技术性的争议,更是一场城市间愈演愈烈的竞速。一边高举旗帜奔跑,一边犹疑止步...