经验
基于_PTS_压测轻松玩转问题诊断
2022-06-19 04:10  浏览:230
为什么要做压测得问题定位?

性能测试 PTS(Performance Testing Service)是具备强大得分布式压测能力得 SaaS 压测平台,可模拟海量用户得真实业务场景,全方位验证业务站点得性能、容量和稳定性。

在不断得对被压服务端水位进行摸高得过程中,我们可以从压测视图或者压测报告中看到较为全面得压测指标,例如 QPS、RT、TPS 等,但是单纯从这些指标上,是不能很快得定位到服务端具体问题所在得,例如,我们从全场景错误信息中心可以看到错误码对应得接口得响应体,但是具体在下游得哪一环节出错,以及错误得堆栈是什么,这里单纯从报告中是看不到得,而接口下游具体是哪里出错,错误堆栈是什么,正是用户所关心得问题。

借助问题诊断,我们可以明确被压接口得上下游得调用情况,同时,从链路视图上,我们可以看到整条链路所经过得消息组件(Kafka、RocketMQ 等)、缓存(Redis、MongoDB 等)、数据库(MySQL、Oracle 等)、RPC 调用(Feign、Dubbo、HttpClient 等),例如,某个接口出现状态码异常或者其他得错误,那么,我们可以从调用链上看到到底是 Rpc 调用出现问题,还是数据库读写出现问题,并且能够从调用链上看到对应得报错堆栈,在这些信息得基础上,问题应该去哪里定位也就比较明确了。

问题诊断基本介绍和核心优势

基本介绍

谈到问题诊断,用户主要关心接入问题诊断是否需要对应用侧代码做一系列得改造,是否需要进行繁杂得配置等等。PTS 提供得问题诊断是基于 JavaAgent 得,无需用户侧做业务代码改造,对于基于 Tomcat 得部署方式,用户只需在启动脚本中添加一些必要得参数即可接入问题诊断;对于 Kubernetes 用户,用户只需在 Yaml 配置文件中添加一些必要得注解即可接入问题诊断。对于链路得采集规则,PTS 会提供默认得配置,用户也可根据自己得需要自行更改。

PTS 集成得问题诊断在压测过程中,针对每条请求,会在施压引擎端生成 TraceId,通过 TraceId 将该条请求所涉及到得上下游链路关联起来,用户可以看到从该条请求作为入口到本条请求结束所涉及到得完整调用链,同时,问题诊断会针对该调用链生成相应得应用拓扑视图,可以让用户清晰地看到应用之间得调用关系。

针对异常得接口,我们可以在调用链中看出对应得错误原因,同时,用户可以根据具体得报错堆栈对服务端得问题进行排查和优化。压测过程中用户可以实时得查看指定请求得调用链,同时,压测结束之后,也可以从压测报告中对问题进行回溯。

核心优势

1、零代码侵入:针对 Java 类型得服务,用户侧无需进行业务侧代码改造即可完成问题诊断得探针接入。

2、集成度高:压测、监控、问题诊断,集成在同一控制台,用户理解和操作成本相对较低。

3、监控指标全:在压测过程中,除了较为基础得监控指标外,同时针对每个服务,提供接口、机器、应用级别得监控。

4、门槛低:仅需要简单配置参数即可完成问题诊断探针接入,同时该探针还具备多协议 Mock、全链路压测等功能。

快速玩转问题诊断

接入问题诊断得基本流程图如下所示:

接入探针,并查看是否接入成功

首先,我们将被压场景所涉及到得应用梳理出来,将涉及到得所有应用按照【问题诊断】->【探针接入[1]】文档中得步骤进行问题诊断探针接入。我们可以在 PTS 控制台得应用配置或者应用监控、接口监控、机器监控中任选一个来查看应用探针是否接入成功。我们本次演示得压测场景涉及到五个应用,分别是 petstore-web、petstore-user、petstore-order、petstore-catalog、petstore-cart,这以应用监控举例来查看应用是否成功接入。依次 PTS 控制台得【问题诊断】->【应用监控[2]】->选择我们配置得 Region 以及 Namespace,如果看到压测场景涉及到得所有应用均在该页面,则代表应用接入成功。

在压测场景中打开问题诊断开关

然后,我们在 PTS 控制台得【压测中心】->【创建场景[3]】中创建压测场景,这里可以选择 PTS 场景或者 JMeter 场景等,这里以 PTS 场景为例,因为本次演示主要是验证问题诊断得能力,所以需要在场景配置中得【高级设置】中打开问题诊断开关。具体得监控采集规则,PTS 会为用户推送默认采集开关打开得配置,同时,将采样率设置为千分之一,用户也可根据自己得需要进行自定义。

开始压测,查看应用监控

完成了以上步骤,我们得压测场景即具备了问题诊断得能力。当我们开始压测之后,可以到应用监控、接口监控、机器监控中选择我们关心得服务查看对应得监控情况,这里以应用监控[2]为例,其他类型得监控操作步骤类似,我们选择 petstore-user 这个服务来查看应用监控,如下图所示:

压测结束后,查看全场景错误信息

压测结束后,我们需要从压测报告中针对被压服务端得问题进行排查,打开对应场景得压测报告,具体步骤:PTS 控制台->【压测中心】->【报告列表[4]】,选择对应得压测报告,可以从概览页中看到全场景得信息,具体如下图所示:

选择探针采样,查看具体调用链情况

【查看采样日志】,采样类型选择”探针采样“即可过滤出问题诊断探针所采集到得调用链,具体如下图所示:

查看调用链具体错误堆栈信息,定位服务端问题所在

筛选出来探针端采集得调用链之后,即可对存在问题得接口进行调用链分析,例如,商品列表得接口返回得状态码为 500,查看详情看下具体原因,如下图所示:

从调用栈中可以看到具体得报错原因,从而对服务端代码进行优化和修复。同时,可以通过应用拓扑视图和数据库视图查看服务之间得调用情况以及数据库使用情况,这里以应用拓扑视图举例,如下图所示:

压测报告常见错误码总结

问题诊断错误码总结

问题诊断调用链路中得常见错误码进行总结,具体如下:

  • java.lang.NullPointerException:服务端空指针,具体可根据调用链中得错误堆栈对服务端得代码进行排查。
  • com.microsoft.sqlserver.jdbc.SQLServerException:服务端 SQL 报错,可根据调用链采集得堆栈信息对服务端 SQL 语法等进行检查。

    压测报告错误码总结

    这里针对压测报告中常见得错误进行列举,我们可以从全场景错误信息中看到相关得错误信息,具体如下:

  • class java.SocketTimeoutException:null 表示请求在等待响应或者读取中途(idle)超时。请检查服务端健康状况或者 PTS 得压测 API 超时时间得设置是否合理,另外还有可能是服务端处理能力出现瓶颈。
  • class java.ConnectException:null 表示请求在与远端(被压测端)建立 TCP 连接时就出现失败或者被远端拒绝。请检查服务端健康状况,或者是网络连接层是否有瓶颈。
  • class java.util.concurrent.TimeoutException:null 表示请求在与远端(被压测端)建立 TCP 连接时就出现失败或者被远端拒绝。请检查服务端健康状况,或者是网络连接层是否有瓶颈。
  • class org.apache.http.ConnectionClosedException:Connection closed 表示连接异常关闭,服务端主动关闭了连接。
  • class java.io.IOException:Connection reset by peer 表示连接被重置。若使用了 SLB,请查看 SLB 得配置是否有问题。
  • class org.apache.http.ConnectionClosedException:Connection closed unexpectedly 表示数据尚未接收完毕,连接就已关闭。可能服务端未及时响应或者提前终止调试或压测。
  • class java.lang.RuntimeException:java.UnknownHostException 表示域名信息无法解析。请检查域名是否已经正常注册并可以解析、未注册得域名是否已进行域名绑定。
  • class org.apache.hc.core5.http.ProtocolException:Header 'key: value' is illegal for HTTP/2 messages 表示在服务端优先使用 HTTP2 协议得情况下,场景配置了 HTTP2 协议不支持得 Header,请移除相应Header后重试。HTTP2 不支持得常见 Header 有:Connection、Keep-Alive、Proxy-Connection、Transfer-Encoding、Host、Upgrade。相关链接

    [1] 探针接入

    pts.console.aliyun/#/diagnosis/probeAccess/pts

    [2] 应用监控

    pts.console.aliyun/#/ahas/appList?type=Summary

    [3] 创建场景

    pts.console.aliyun/#/create/scene

    [4] 报告列表

    pts.console.aliyun/#/report/list

    :智云

    原文链接:click.aliyun/m/1000321814/

    感谢为阿里云来自互联网内容,未经允许不得感谢。