简而言之，算力利用率指负载在集群上每秒消耗的实际算力除集群的标称算力。对一个典型的GPT-like负载，其主要的浮点算力都由Transformer层和logit层中的矩阵乘（GEMMs）贡献。

例如昇腾上一个典型的千亿大模型盘古中，99.3%以上的浮点算力都由fp16的矩阵乘贡献。考虑一个具有I个transformer层的大模型负载，F表示一个iteration中负载消耗的算力。

注意，F为真实FLOPs统计的lower bound。真实的计算过程中，负载还有少量的vector算力和padding带来的额外算力（占比极少）。

下面的计算公式，B代表Batch Size，s代表sequence length，I是transformer层的数量，h是hidden size，V是vocabulary size。

一个点击放大的矩阵乘法需要2mnk个浮点运算（乘加运算算两次）。Transformer层由一个注意力模块（attention）和一个2层前馈网络（FFN）组成。对于注意力模块，主要的贡献者是键（key）、查询(query)和值(value)的转换（次运算），注意力矩阵计算（点击放大次运算），对值进行注意力计算（次运算）和注意力后的线性投影（次运算）。前馈网络将隐藏大小增加到4h，再将其缩小回h。这需要个浮点运算。