昇腾社区首页
中文
注册

使用说明

服务化调优场景下,时间线(Timeline)界面的使用说明可参见系统调优的使用说明

服务化视图

“系统视图”页签,当选择服务化视图时,页面包含卡序号选框、3种服务化数据页签,在卡序号选框中可以选择想要查看的卡。

3种服务化数据包括kvcache_usage、batch_info和request_data,如图1所示。

选择任一服务化数据,右侧区域会显示对应的详细信息,字段解释如表1所示。

图1 服务化视图
表1 服务化视图字段说明

中文字段

英文字段

说明

kvcache_usage

rid

rid

请求ID。

name

name

具体改变显存使用的方法。

real_start_time_ms

real_start_time_ms

发生显存使用情况变更的时间,单位ms。

device_kvcache_left

device_kvcache_left

显存中剩余blocks数量。

kvcache_usage_rate

kvcache_usage_rate

kvcache利用率。

batch_info

name

name

用于区分组batch和执行batch。

name为batchFrameworkProcessing表示组batch;name为modelExec表示执行batch。

res_list

res_list

batch组合情况。

start_time_ms

start_time_ms

组batch或执行batch的开始时间,单位ms。

end_time_ms

end_time_ms

组batch或执行batch的结束时间,单位ms。

batch_size

batch_size

batch中的请求数量。

batch_type

batch_type

batch中的请求状态(prefill和decode)。

during_time_ms

during_time_ms

执行时间,单位ms。

dp*_rid

dp*_rid

DP域包含的请求ID,*表示DP域ID,取值为[0, n-1]。

dp*_size

dp*_size

DP域的batchsize,*表示DP域ID,取值为[0, n-1]。

dp*_forward_ms

dp*_forward_ms

DP域中执行时长最长的forward的执行时间,单位ms,*表示DP域ID,取值为[0, n-1]。

request_data

http_rid

http_rid

HTTP请求ID。

start_time_ms

start_time_ms

请求到达的时间,单位ms。

recv_token_size

recv_token_size

请求的输入长度。

reply_token_size

reply_token_size

请求的输出长度。

execution_time_ms

execution_time_ms

请求端到端耗时,单位ms。

queue_wait_time_ms

queue_wait_time_ms

请求在整个推理过程中在队列中等待的时间,这里包括waiting状态和pending状态的时间,单位ms。

first_token_latency

first_token_latency

首Token时延,单位ms。