使用说明
服务化调优场景下,时间线(Timeline)界面的使用说明可参见系统调优的使用说明。
服务化视图
在“系统视图”页签,当选择 时,页面包含卡序号选框、3种服务化数据页签,在卡序号选框中可以选择想要查看的卡。
3种服务化数据包括kvcache_usage、batch_info和request_data,如图1所示。
选择任一服务化数据,右侧区域会显示对应的详细信息,字段解释如表1所示。
中文字段 |
英文字段 |
说明 |
---|---|---|
kvcache_usage |
||
rid |
rid |
请求ID。 |
name |
name |
具体改变显存使用的方法。 |
real_start_time_ms |
real_start_time_ms |
发生显存使用情况变更的时间,单位ms。 |
device_kvcache_left |
device_kvcache_left |
显存中剩余blocks数量。 |
kvcache_usage_rate |
kvcache_usage_rate |
kvcache利用率。 |
batch_info |
||
name |
name |
用于区分组batch和执行batch。 name为batchFrameworkProcessing表示组batch;name为modelExec表示执行batch。 |
res_list |
res_list |
batch组合情况。 |
start_time_ms |
start_time_ms |
组batch或执行batch的开始时间,单位ms。 |
end_time_ms |
end_time_ms |
组batch或执行batch的结束时间,单位ms。 |
batch_size |
batch_size |
batch中的请求数量。 |
batch_type |
batch_type |
batch中的请求状态(prefill和decode)。 |
during_time_ms |
during_time_ms |
执行时间,单位ms。 |
dp*_rid |
dp*_rid |
DP域包含的请求ID,*表示DP域ID,取值为[0, n-1]。 |
dp*_size |
dp*_size |
DP域的batchsize,*表示DP域ID,取值为[0, n-1]。 |
dp*_forward_ms |
dp*_forward_ms |
DP域中执行时长最长的forward的执行时间,单位ms,*表示DP域ID,取值为[0, n-1]。 |
request_data |
||
http_rid |
http_rid |
HTTP请求ID。 |
start_time_ms |
start_time_ms |
请求到达的时间,单位ms。 |
recv_token_size |
recv_token_size |
请求的输入长度。 |
reply_token_size |
reply_token_size |
请求的输出长度。 |
execution_time_ms |
execution_time_ms |
请求端到端耗时,单位ms。 |
queue_wait_time_ms |
queue_wait_time_ms |
请求在整个推理过程中在队列中等待的时间,这里包括waiting状态和pending状态的时间,单位ms。 |
first_token_latency |
first_token_latency |
首Token时延,单位ms。 |