Let's Go!

一次性能测试结果排查过程（转载）

上一篇 / 下一篇 2009-05-20 21:07:23 / 个人分类：LoadRunner

http://www.51testing.com/?uid-13997-action-spacelist-type-blog-itemtypeid-1126

一个测试环境受到外部不预期的干扰，性能测试结果将出现不预期的数据，导致分析困难甚至错误结论。
最近碰到一个CASE，将一个sevice  插入测试环境的网站应用中，然后对比是否加入这个service的性能影响。
多台测试机器，每台机器部署多个应用，所有应用共享一个DB。

  系统架构： java + webx+ ibatis+ oracle。

另外，这个service采用几百K的数据运行速度也在毫秒级别。

呵呵，差点掉到沟沟里，特记录下。

一制定测试方案

和service开发的dev 评审测试方案。没有和网站应用的架构师核对。
被测服务器 load 已经大于 1 。

二性能测试执行过程

选取一个post 产品的流程做性能测试脚本。性能测试数据从几百个byte-几K.
调整JAVA应用参数与生产环境同。

1) 删除用户数据
2) 删除日志
3) 重启应用
4）交替执行service上与不上场景.
5）多次执行去性能数据平均值

性能测试选择在晚上人少时执行。

三性能测试结果分析

性能测试发现average response time，上与不上service 相差无几,都是0.13秒左右。甚至同样并发数时，上service的response time 比不上service的response time还要低。
其他load <2 ,cpu%约20% ,iowait% <1%,内存充足都相近。这个结果似乎有点解释不通。

另外比较反常的是：average reponse time图(非graph average)上偶尔有锯齿型的到达0.2 甚至0.4的高点，尺度延续时间40多秒。average response time的 std dev（标准方差）约 0.13甚至更高。
经web page break down分析图片这个数据更加清晰可见。

经咨询网站的同事，架构师，DBA，可能多台机器上有应用定时器（quartz框架）或者DB自身定时器干扰，与网络无关。
选择关闭上述所有应用定时器以及DB层定时器后，晚上重新执行多个场景的性能测试，并手工定期检查DB执行SQL。

再分析性能测试结果，依然有锯齿型数据且性能结果且很接近之前结果，但这个数据是可控程度高的数据。
用SQL查询性能测试期间DB 日志：
select SEQUENCE#,FIRST_TIME from v$log_history
  2  where
  3  FIRST_TIME >=to_date('20090209 19:00:00','yyyymmdd hh24:mi:ss')
  4  and FIRST_TIME<to_date('20090209 23:00:00','yyyymmdd hh24:mi:ss')

发现有4个日志切换过程。

对比average reponse time拐点与日志切换时间点，部分与之吻合，但average reponse time拐点长度偏大。
经咨询每次日志切换约有20-50毫秒事务挂起。

另外部分不吻合部分，是service处理数据长度随机变化有关。

四常见工具

再回头看看确认环境干净，参数配置预期正确的工具。

毫无疑问，好用的脑子是最强的武器。

1） OS 层面
ps ,top 看进程
ipcs 看进程间通讯
netstat 看网络连接
nmblookup,nbtstat 连接的人

sysctl,/proc  看系统参数
ulimit 系统软、硬限制

2）apache 层

httpd.conf

3) mod_jk 层
几个 property文件

4）JBOSS 层
run.conf,run.sh以及应用配置参数

另外就是检查对应启动的服务,可以借助 web-console
5） JVM 参数

6） DB 层面
oracle init file
mysql show variables

7) 其他关联服务。
如 memcached

...

从上例看到，性能测试排除干扰很重要，在系统日趋复杂的情况下需勤开口、善借外力，力争一次把事情做对、做好

阿里巴巴性能测试规划思路

1)充分利用已有性能测试脚本，做性能测试回归对比，形成性能测试结果趋势分析库
2)补充JMeterLINUX/ORACLE监控功能，补充报表统计分析功能，增强分布式脚本分发功能，规避OutOfMemory异常
3)进一步挖掘前端性能测试工具，记录生产环境页面响应时间变化趋势,利用浏览器上等图形展现框架表达趋势。另外，参考HP BAC产品开发一些补充功能
4)公司级别日志挖掘功能，以及服务器端性能监控颗粒细化，公司多个PC机器访问时间等信息充分利用，完善生产环境负载模型
5)最最重要的是，提高模拟海量数据/高并发模拟压力能力，避免系统上线性能问题。还需要利用JMX等技术开发监控JAVA服务器/apache 细颗粒的性能，
降低性能调优难度
6)性能测试人才梯队建设以及培训交流增强

大型复杂系统性能测试初步分析评估的核心思路

（1）系统相关组件的配置文件或者设置是？：
HP-UX:kmtune或者sam
Solaris: /etc/system或者admintool
Linux:sysctl或者/proc/sys
AIX:/etc/security/或者smit
ASP.NET:machine.conf,web.conf以及IIS配置
WebLogic:startweblogic以及config.xml，http://IP:7001/console
Oracle:init.ora或者OEM
Mysql:my.cfg或者mysqladmin –variables或者mysqladmin工具

（2）客户端与服务器端采用的语言：C/C++,Java,c#,VB,Dephi,ASP.NET/PHP/JSP。初步判断是否适合大型应用、平台移植、性能、参数配置（java –Xms? –Xmx?等）。
（3）客户端开发采用的框架（MFC,VB,SWING/AWT/,DEPHI）。即考虑是否可以采用winrunner作为备选方案。
（4）客户端与服务器端通信协议（socket,corba,oracle-2 tier,http….）以及同步/异步通信方式、是否采用了加密、解密算法。若采用了算法，提供源码。
若为异步通信，可否分离push/drag信息（不同端口、不同标签？）?是否可以启动多线程程序控制时长或者迭代次数。
若为SOCKET，请提供判断SOCKET收包完成的标志：
固定长度or 特定字节or变长（字段还是字段组合推算）。
（5）客户端与服务器端连接是否为长连接？是否要求保持heartbeat信息？idle多长时间被中断？（如asp.net为20分；weblogic为10s;loadRunner generator与controller之间心跳检测为2分钟。）
（6）若客户端与服务器端采用多协议，是否两种协议都在LoadRunner录制、支持范围。若采用socket/corba，应优先录制脚本，进一步考虑是否有必要封装成dllexport函数，供loadrunner 加载利用。
（7）进一步了解loadrunner对该协议的多线程能力、hook处理。
（8）采用的第三方产品性能测试？
(9) 硬件平台
(10) 数据存储分布情况

电信网管系统编写DLL API供loadrunner调用的规范

由于性能脚本开发工具一些固有的缺陷，加上网管系统多用事件触发，压力入口存在多个，录制采用的协议相对底层(非web)，解决回放的成本高。
故将前台用户操作部分的核心功能封装成纯C语言的dll，供loadrunner调用，具体要求：
(1)将存在度量用例响应时间的程序段（存在用户等待的地方），封装成一个 dllexport function(in 变化参数，out 结果代码,out 错误消息)函数。in参数不用二维数组、函数指针等复杂类型。多用一维数组，字符串，指针，int/long等简单类型。in参数为界面上看到的友好名称或者能轻易从数据库查询出来的值。
(2)若为触发的事件，外部调用能控制等待或者轮循的速率控制。如sleep...
(3)对于回调的事件，有专门的函数收包，可以不审核包的内容。
(4) 对核心函数应该提供调用样例。如
init(..);
login(user,passwd.....);
getalert(...)
cofirmalert(...)
logout(..);
注意参数都是对客户而言是友好的，非下层corba或者socket等私有key.
若后台网元传送到采集机/服务器无法模拟峰值吞吐的，同样有如上要求。
如何客户端主动发送的请求与服务器推送的告警所用端口分开，请说明两个端口。
若核心程序为Java包，则请封装为JAR，暴露核心功能class以及方法。

另外，请厂家利用viso描述核心功能在采集机、应用服务器、DB之间的信息流图.

论坛]大型RAILS应用(网络考试)性能测试与调优过程

一背景介绍

  系统为上海一家IT公司rail on ruby快速开发出来的网络考试系统。核心功能：登录、考试。考试分为html的单/多选题,flash展现的操作题

。在内部一次模拟考试中，系统曾经出现性能故障，导致无法正常做题。

二系统架构分析

接到性能测试任务，第一感觉：要很注意每一个细节，包括用户行为模拟、场景设计合理全面等。

咨询了解到系统架构为: ruby+rails+ apache2.x+mysql5。

登录系统：登录web与登录的DB分开
考试系统：考试web与考试DB 集中部署在一台机器上。答一道题目即插入数据库表

三用户行为分析

1 考试要求在 0~45分钟内考试完毕
2 多数考生一般先做选择题，再做操作题；少部分反之。
3 多数考生做完全部题目，少部分考生中途就提交结束答卷
4 题目可以回退或者选择任意一题目修改答案
5 同一个考生在提交答卷后，不能再答题

由于系统更加细致的数据没有log分析，就简单采用80-20原则随机模拟。

四脚本开发小技巧
1  随机模拟脚本
init.c 加入 srand(time(NULL));

action.c 加入  rand() % 100；

2 cookie处理

服务器端检查cookie信息。
加入web_add_auto_header 确保后续每一个http请求都自动把cookie加入header

3 并发处理
由于一次性考试，故并发数没有按考试人数缩放，但考试按照一定的随机think time等待。

五系统调优

主要的线索是environment.rb定义的config.log_level 生成product.log，
以及rail bench。

(一) 精简登录首页

1 登录：削减登录网页，很轻量级，仅仅包含Login 窗口

(二) flash下载模式变更
原来做操作题目，该flash操作题才下载到客户端。
为了减轻并发下载flash的网络流量压力，变更为在登录成功后，客户端javascript采用ajax技术(xmlhttpquest)随机1-60秒内后台主动下载

flash试题到客户端。改变网络流量瞬间飙升的情况。

(三) apache2.0 调整httpd.conf 关键参数以及加载mod_proxy 、mod_mem_cache

1 apache httpd work mpm模式。
增加 MaxClient。

<IfModule worker.c>
StartServers       2
ServerLimit       2500
MaxClients       2500
MinSpareThreads    75
MaxSpareThreads    255
ThreadsPerChild    25
MaxRequestsPerChild  0
</IfModule>

2 上apache 负载均衡模块 mod_proxy

ProxyRequests off

<Proxy balancer://kaoshi>
BalancerMember http://localhost:6000
BalancerMember http://localhost:6001
BalancerMember http://localhost:6002
BalancerMember http://localhost:6003
BalancerMember http://localhost:6004
BalancerMember http://localhost:6005
</Proxy>
ProxyPass /images !
ProxyPass /stylesheets !
ProxyPass /javascripts !
ProxyPass /expert_photos !
ProxyPass /uploads !

ProxyPass / balancer://kaoshi/
ProxyPassReverse / balancer://kaoshi/
ProxyPreserveHost on

3  LoadModule mem_cache_module modules/mod_mem_cache.so加载cache模块

   CacheEnable mem /
   MCacheMaxStreamingBuffer 65536
   MCacheRemovalAlgorithm LRU
   MCacheSize 3000000
   MCacheMaxObjectCount 256000
   CacheIgnoreHeaders None
   CacheIgnoreCacheControl On
   MCacheMinObjectSize 1
   MCacheMaxObjectSize 2560000
   CacheDefaultExpire 10

(四)  rails 相关调整

1 变更默认连接器为C-based MySQL library mysql-2.7。
2  直接写SQL不用activeRecord 接口。
3  修改mogrel 服务参数

mongrel_cluster.yml

cwd: /home/www/kaoshi/current
port: "6000"
environment: production
address: 0.0.0.0
servers: 7

4 rails负载均衡

[app@b2bsearch114 controllers]$ pwd
/home/app/download/match_export/app/controllers

class ExamsController < ApplicationController
  IPS = %w(10.0.6.91 10.0.6.91 10.0.6.91 10.0.6.91 10.0.6.91 10.0.6.91)

  def host
index = (session["no"] || 1) %  IPS.size
render :text => IPS[index]
  end

5 rails 部署Memcached缓存模块

(五)  数据库结构以及SQL 调优

调整MYSQL配置文件、以及增加部分字段索引之后，iowati%从20%下降到0.4%
祥见
http://nnix.blogbus.com/logs/14824821.html
/bin/sh /usr/bin/mysqld_safe --user=mysql

[root@aligame etc]# vi my.cnf

[client]
#password    = your_password
port          = 3306
socket       = /var/lib/mysql/mysql.sock

# Here follows entries for some specific programs

# The MySQL server
[mysqld]
port          = 3306
socket       = /var/lib/mysql/mysql.sock
skip-locking
key_buffer = 64M
max_allowed_packet = 1M
table_cache = 512
sort_buffer_size = 2M
read_buffer_size = 2M
read_rnd_buffer_size = 8M
myisam_sort_buffer_size = 64M
thread_cache_size = 8
thread_concurrency = 8
query_cache_size = 64M
event_scheduler=1
lower_case_table_names=1
max_connections=200
back_log=512
default-character-set=utf8

log_slow_queries
log_long_format
long_query_time=1
server-id    = 1
#innodb_data_file_path = ibdata1:1025M;ibdata2:256M:autoextend
innodb_buffer_pool_size = 1024M
innodb_max_dirty_pages_pct = 90
innodb_additional_mem_pool_size = 16M
#innodb_log_file_size = 256M
innodb_log_buffer_size = 8M
innodb_log_files_in_group = 2
innodb_flush_log_at_trx_commit = 2
innodb_lock_wait_timeout = 50
innodb_file_io_threads = 4
innodb_thread_concurrency = 8

[mysqldump]
quick
max_allowed_packet = 16M

[mysql]
no-auto-rehash
# Remove the next comment character if you are not familiar with SQL
#safe-updates

[isamchk]
key_buffer = 256M
sort_buffer_size = 256M
read_buffer = 2M
write_buffer = 2M

这 log_slow_queries,log_long_format,long_query_time=1 慢的查询语句将被打印

在目录下可见*slow.log文件记录可能有性能问题的SQL

七小结

本次rails程序从应用程序调优、APACHE配置与调优、MYSQL索引与SQL优化多个细节提升性能。
调整从最显著的一个瓶颈(apache Maxclient->Mysql SQL)开始的，一次仅调整一个。
  本次调优一个环节后，瓶颈从一个环节转移到另外一个环节。

[论坛]loadrunner的不足与jmeter用武之地

我们购买了LoadRunner 8.1 作为性能测试主流工具，商业工具确实用的蛮好的，在部门层面推行顺利。
结合实践，发现有几点相当不错：

1) LoadRunner controller运行稳定
2) 支持多个load generator 一起施加压力
3) 监控指标相对齐全
4) 性能测试结果颗粒细致
5) 预留有性能结果在monitor上的api 接口
...

  但LoadRunner是否足够完美了呢？答案：NO

1) 对汉语的编码支持问题：utf-8/gbk设置导致有时仅用英文作web_reg_find的check point

2) LoadRunner 8.1 Udp方式监控unix资源导致有断续，呵呵，改天要电话咨询下HP有无补丁。
(LR 8.0有的)

3) 有时应用vugen 录制/回放异常退出程序

4) 最为诟病的：昂贵

5) 支持jboss/tomcat/mysql等的应用性能数据需要自己实现,实际上监控linux也无可用内存、iowait%、网络流量等指标

...

  我们把更多眼光关注开源社区，评估opensta、jmeter、webload...。最终选取与公司主流技术平台( java+apache2+ jboss4.2 +oracle9i/10g + redhat linux)一致的jmeter做一个补充。

  对于Jmeter最为关键的几步：

1) 分析性能测试结果和loadrunner不同的原因
2) jmeter 产生压力的稳定性以及原理
3) 监控扩展能力。 linux+oracle9i+jboss+mod_jk 等这些需要支持，呵呵，否则很可能需要手工收集各个平台性能数据，造成效率低下
4) jmeter脚本调试能力，支持参数化、关联、检查点、http协议自主控制(超时、cookie、http头、是否下载non-html资源)等