如何进行可用性测试？这里有一份全面的可用性测试指南

您的位置：
门户
>> 文章精选
>> 软件测试技术
>> 性能测试
>> 查看资讯

如何进行可用性测试？这里有一份全面的可用性测试指南

发表于：2018-5-08 16:32

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：少穻来源：人人都是产品经理

性能测试

软件测试技术

可用性测试

　　　　可用性测试就是通过观察用户使用产品完成典型任务，发现产品中存在的效率与满意度相关问题的方法。那如何进行可用性测试呢？这里有一份全面的指南。

　　　　什么是可用性？

　　　　任何与人可以发生交互的产品都应该是可用的，就一般产品而言，可用性被定义为目标用户可以轻松使用产品来实现特定目标。

　　　　ISO9241/11中的定义是：

　　　　一个产品可以被特定的用户在特定的场景中，有效、高效并且满意得达成特定目标的程度。

　　　　人机交互专家 Jakob Nielsen 将可用性框架的定义为：

　　　　可学习性：初次接触这个设计时，用户完成基本任务的难易程度？

　　　　效率：用户了解了设计之后，能多快地完成任务？

　　　　可记忆性：当用户一段时间没有使用产品后，是否能轻松地恢复到之前的熟练程度？

　　　　错误：用户犯了多少错误，错误严重程度如何？用户能否从错误中轻易地复原？

　　　　满意度：用户对产品的主观满意度，这个设计让用户感觉如何？

　　　　什么是可用性测试？

　　　　可用性测试，大多用于网站或移动应用的设计评估，其实也可以用于智能硬件的完整体验流程，通常会邀请目标受众群体中的真实用户，在特定场景下通过产品完成典型的任务。

　　　　在真实的使用过程中观察用户的实际操作情况，详细记录并分析用户在使用产品中遇到的问题，目的是发现产品中存在的可用性问题，收集定性和定量数据帮助产品改进，并确定目标用户对产品的满意度。

　　　　简单来说，可用性测试就是通过观察用户使用产品完成典型任务，发现产品中存在的效率与满意度相关问题的方法。

　　　　为什么要进行可用性测试？

　　　　可用性测试是改善产品的极佳方式。

　　　　有时，我们并不是产品的目标用户，很多需求和设计方案是产品设计人员自己想出来的，在讨论方案的时候总是说：”用户想要…” 、”我觉得…” 、”如果是我，我会…”，虽然设计时会依据一些经验与设计法则，但这些都只是未经验证的主观猜测而已，无法准确的评估设计方案的优劣，这往往导致观点对立，僵持不下。

　　　　所以为了了解真相（用户到底会怎样使用产品），我们要找到我们的目标用户并向他们学习（观察他们如何使用产品），这样才能使团队尽快对设计方案达成一致并积极改善产品。

　　　　通过可用性测试，我们可以：

　　　　了解真实用户如何与产品进行交互并；

　　　　了解真实用户是否能够完成指定任务；

　　　　了解真实用户完成指定任务需要多久；

　　　　了解真实用户对产品与竞品的满意度；

　　　　确定改进产品可用性问题所需的修改；

　　　　定性分析可用性并查看是否符合目标；

　　　　让设计和开发团队在开发前发现问题。

　　　　可用性测试类型

　　　　可用性测试的类型（进行可用性研究的原因）有三种：

　　　　1.探索性可用性测试：在发布新产品之前，探索性可用性测试可以确定新产品应包含哪些内容和功能，以满足用户的需求。在产品开发早期，探索性可用性测试可以评估初步设计或原型的有效性和可用性。

　　　　2.评估性可用性测试：在发布前或发布后对最新版本的测试，通过评估性可用性测试向用户介绍新设计，以确保其直观使用并提供良好的用户体验。评估性可用性测试的目的是——确保在产品推出之前突出并修复任何潜在问题。

　　　　3.比较性可用性测试：比较两种或更多种产品或设计的可用性，并区分各自的优缺点，以确定哪种设计能提供最佳的用户操作体验。

　　　　纸原型测试来源：mediamatic.nl

　　　　可用性测试方法

　　　　产品可用性测试方法分为分析法和实验法。

　　　　1. 分析法

　　　　让产品可用性工程师及用户界面设计师等专家，基于自身专业知识和经验进行评价的一种方法。

　　　　特点：主观、评价结果是假设的、时间少、费用少、评价范围广、设计初期也可以评价。

　　　　分析法常用于可用性检查阶段，常见的分析法包括但不限于：

　　　　专家评审：评审由精通设计可用性概念的专家进行，基于自身专业知识与经验对产品进行审查。

　　　　启发式评估：让可用性专家判断每个页面及元素是否遵循已确立的可用性原则。

　　　　认知走查：设计师模拟用户在使用产品过程中的每个操作步骤所遇到的问题，检查用户的任务目标和心理认知是否可以顺利执行下一步操作？

　　　　针对每步操作提出四个问题：

　　　　1.用户是否知道自己要做什么？

　　　　2.用户在探索用户界面的过程中是否注意到操作方法？

　　　　3.用户是否把自己的目的和正确的操作方法关联到一起？

　　　　4.用户能否从系统的反馈中判断出任务是否在顺利进行？

　　　　通过回答每个操作步骤的问题，就能发现可用性问题。

　　　　多元走查：认知走查的变体，使用小组会议，其中用户、开发人员和人为因素让人们在场景中逐步讨论操作流程中的每个交互页面及元素。

　　　　一致性检查：让代表多个其他项目的设计人员检查界面，以查看它是否以与他们自己的设计相同的方式进行操作。

　　　　2. 实验法

　　　　收集真实的用户使用数据，比较典型的是用户测试法，问卷调查等方法也属于此类。

　　　　特点：客观、评价结果是事实、时间长、花费大、评价范围较窄、为了做评价，必须准备原型。

　　　　实验法常用于可用性测试阶段（用户测试阶段），常见的实验法包括但不限于：

　　　　卡片分类：通常用于测试分类或导航结构，让用户将一组写有信息的卡片分组，并为其分配名称或标签。卡片分类有助于了解用户如何看待内容以及他们如何组织信息，从而决定在每个页面放置什么，对于页面或功能分类很有帮助。

　　　　面对面测试：由一个或多个观察者在诸如会议室的固定环境中运行，或者与小团体或个人进行。要求用户完成一组任务，观察者可以随时与他们交互以提出问题或进一步探究。

　　　　远程测试：在远程测试中，用户在自己的环境中执行一系列任务，通过软件记录完成任务的过程，软件自动记录用户的点击位置和交互过程，并记录他们在使用网站或应用程序时发生的关键事件以及用户提交的反馈。这种类型的测试可以由主持人（使用网络研讨会或电话会议技术）完成，也可以作为自我测试。

　　　　A / B测试：为网站或应用程序的界面或流程制作两个（A/B）或多个（A/B/n）版本，在同一时间维度，分别让组成成分相同（相似）的访客群组随机的访问这些版本，收集各群组的用户体验数据和业务数据，最后分析评估出最好版本正式采用。

　　　　走廊测试：使用随机的人来测试网站，而不是那些在测试网站方面训练有素和经验丰富的人。这种方法对于在开发过程中首次测试新网站特别有效。

　　　　纸张原型测试：创建一个粗糙的，甚至是手绘的界面图形以用作设计的原型。让用户通过原型来执行任务，该方法能以极低的成本在编码完成之前对设计进行测试。

　　　　问卷调查：问卷的优势在于可以收集结构化的数据，且价格低廉，不需要检测设备，结果反映了用户的意见。

　　　　分析法与实验法的主要区别在于：是否有用户参与其中？

　　　　分析法的参与者是具备可用性知识的设计师与工程师；而实验法的参与者是目标用户或小白用户。从某种程度而言，分析法和实验法是一种互补的关系。

　　　　一般，在设计用户测试时，先在可用性检查阶段通过分析法去排查可用性问题，把排查出的问题按重要程度排序，然后在可用性测试阶段通过用户测试去重点观察和验证。

　　　　分析法的最大缺点是：它得到只是分析者的假设或观点，在团队意见不一致时，并不能够提出支持自己意见的有力证据。为了结束争论，就只能通过实验法。

　　　　接下来重点介绍分析法中的启发式评估法与实验法中的一对一用户测试。

　　　　可用性测试实验室来源：u-sentric.com

　　　　启发式评估

　　　　1. 启发式评估简介

　　　　因为专家评审过度依赖于自身的专业知识与经验，为了得到一个更客观的结果，Jakob Nielsen根据多年可用性工程的经验创造了启发式评估法。

　　　　启发式评估使专家按照公认的可用性原则，来审查用户界面中的可用性问题，然后通过一系列原则对它们进行分类和评分。Jakob Nielsen的十种启发式评估原则（尼尔森十大交互定律）是行业中最常用的可用性评估原则。

　　　　除此之外，还有Gerhardt-Powals的认知工程原理、Weinschenk和 Barker的分类、ISO 9421 对话原则等。

　　　　2. 启发式评估原则

　　　　Jakob Nielsen倡导的启发式评估十原则内容如下：

　　　　系统状态的可见性：系统应该在合理的时间内做出适当的反馈，始终让用户了解正在发生的事情。

　　　　系统与现实世界的匹配：系统应使用用户的语言，用户熟悉的词语和概念，而不是系统导向的专业术语。遵循现实世界的惯例，使信息以自然和合乎逻辑的顺序出现。

　　　　用户控制和自由：用户有时会误操作，要提供任何时候都能从当前状态跳出来的出口，保证能够及时取消或者再运行执行过的操作（支持撤消和重做）。

　　　　一致性和标准化：不应让用户怀疑不同的词语、情况或行为是否意味着同一件事。保证用户在同样的操作下得到相同的结果。

　　　　预防错误：提前预防错误的发生，这种防患于未然的设计要比适当的错误提示更胜一筹。消除容易出错的条件或检查它们，并在用户采取行动之前让用户再次确认是否进行该操作。

　　　　识别而不是回忆：通过使对象，动作和选项等可视化，从而最大限度地减少用户的认知负担，使用户无需回忆，一看就懂。尽量不要让用户从当前对话切换到别的对话时还必须记住某些信息，系统的使用说明应该是可见的，或者适当时可以轻易地检索。

　　　　灵活性和效率：加速器功能（初次接触的用户看不到该功能）通常可以提升专家用户的操作效率，从而使系统能够迎合无经验和有经验的用户，允许用户能够单独调整会频繁使用的操作。

　　　　审美和极简主义设计：对话不应包含无关或极少需要的信息，对话中的每条附加信息都会与关键信息形成竞争，并降低其相对可见度。

　　　　帮助用户识别，诊断和从错误中恢复：错误消息应以简单的语言表示，精确地表明问题，并建设性地提出解决方案。

　　　　帮助和文档：即使系统在没有帮助文档的情况下也可以使用良好，但还是有必要提供帮助和文档。这样的信息应该易于搜索，针对用户要执行任务列出具体步骤。

　　　　3. 启发式评估法的实施步骤

　　　　STEP 1：招募评价人员

　　　　Jakob Nielsen认为：一个人评价大约只能发现35%的问题，因此大概需要3~5人才能得到稳妥的结果，能够胜任启发式评估职位的人可以是用户体验设计师、交互设计师、UI设计师等。界面的原设计师是不适合评价界面的，因为评价结果可能会不够客观抑或是发现问题直接就进行修改而不会反馈。

　　　　STEP 2：制定评价计划

　　　　评价产品的所有功能是比较困难的，所以要事先定好要评价界面的哪些部分，以及依据哪些原则进行评价（Gerhardt-Powals的认知工程原理、Weinschenk和 Barker的分类、ISO 9421 对话原则等）。

　　　　STEP 3：实施评价

　　　　最好对界面进行两次评价：第一次检查界面的流程是否正常，第二次详细检查各界面是否存在问题。评价人员之间应禁止相互讨论，以避免评价结果被权威人士所影响。

　　　　STEP 4：召开评价人员会议

　　　　评价人员完成了各自的评价后，要集中开会以汇报评价结果，会议上描述问题的同时将界面显示出来会更有效率。

　　　　启发式评估的优点是：通过单独评价和评价人员之间的讨论这二次过滤，可以发现单独一人不能发现的跨度较大的问题。

　　　　STEP 5：总结评价结果

　　　　汇总所有的评价结果后，就可以整合评价的问题列表了，可能会有一个问题存在多种表达方式，所以需要对问题列表进行适当的整理。

　　　　STEP6：输出总结性报告

　　　　启发式评估法的输出成果就是产品可用性问题列表，但如果只给出列表，其他成员理解可能会比较困难，因此最好配上界面截图、流程图等输出一份简介的启发式评估报告。

　　　　启发式评估报告（HE报告）的内容主要包括：

　　　　出现问题的界面和位置，关键事件或问题出现在用户界面的哪个位置？

　　　　启发式的名称，引用了十个启发式原则中的哪一个？

　　　　被评价为否定或肯定的原因，解释为什么界面会违反或符合该启发式？

　　　　问题的范围，描述问题的范围，是贯穿整个产品还是在某个界面？

　　　　问题的严重程度(高/中/低），评估问题的严重程度。

　　　　评定其严重程度的理由，给它高/中/低的原因。

　　　　修复建议，对问题的改进建议。

　　　　可能的权衡（为什么修复可能会不起作用），提及这些权衡可以增加报告的可信度。

　　　　启发式评估问题列表的示例

　　　　4. 启发式评估法的局限性

　　　　平心而论，启发式方法是打算作为一种帮助新手从业者进行可用性检验的“脚手架”，因此它无论如何都无法与专家可用性检验方法相提并论。而且，只有专家才能通过可检验方法发现问题，而不是使用启发式方法的都是专家。

　　　　启发式评估法是由多位专家基于自身经验和启发式原则，对用户界面进行的评判，因此势必会发现很多问题。而且实施启发式评估法需要多名专家在限定的几天内进行作业，所需成本也较高。

　　　　所以应结合实际情况对启发式评估做简化，可以只由一两名专家进行简单审查，这种做法被成为启发法。不过在不提供客观的判断标准，且检验人员数量又少的情况下，评估结果可能会被指责“这些问题只是检验人员的主观想法而已”。

　　　　因为资源有限而导致不能进行正规的启发式评估，而改为简易的审查时，要注意：

　　　　不应以个人偏好，而应以理论依据进行评价。

　　　　评价的目的不是挑错，更应给出合理建议。

　　　　当团队意见不一致时，与其争论不如通过实验得出结论。

　　　　用户测试方法来源：rainforestqa.com

　　　　用户测试

　　　　1. 用户测试简介

　　　　用户测试，可用性工程师与用户进行一对一访谈（理想情况下，观察者与使用者彼此不认识，以便收集更多客观数据），其他成员在监听室观察整个访谈，而且用户操作计算机时的界面和声音，全程都被录像。

　　　　可用性测试的基本内容是相同的：为用户构建一个场景，让用户通过产品完成特定任务，在用户执行任务的过程中观察他们遇到的问题。

　　　　2. 用户测试的常见方法

　　　　（1）发声思考法

　　　　发声思考法就是让用户一边说出心里想的内容一边操作，操作过程中用户能够说出“我觉得下面应该这样操作…”。这样我们就能够把握用户关注的是哪个部分、他是怎么想的、又采取了怎样的操作等信息，这是一种能够弄清楚为什么会导致不好结果的非常有效的评估方法。

　　　　发声思考法观察的重点：

　　　　用户是否独立完成了任务？若不能独立完成任务，页面存在有效性问题。

　　　　用户达到目的的过程中，是否做了无效操作或不知所措？如果有，页面存在效率问题。

　　　　用户是否有不满的情绪？如果有则页面存在满意度问题。

　　　　（2）回顾法

　　　　让用户操作完后回答问题的方法。

　　　　回顾法的限制：

　　　　很难回顾复杂的情况。

　　　　用户会在事后为自己的行为找借口。

　　　　回顾发比较耗时。

　　　　（3）性能测试

　　　　性能测试一般会安排在项目前后实施，目的是设置目标数值、把握目标的完成程度和改善程度。

　　　　测试主要针对产品可用性三要素（有效性、效率、满意度）的相关数据进行定量测试：

　　　　有效性可以用任务完成率来表示：有几成的用户可以独立完成任务是检验里最重要的一个性能指标，这里的任务完成指用户正确的完成了任务。

　　　　效率可以用任务完成时间来表示：界面时为了让用户完成任务而设计的，因此能够在最短时间内让用户完成任务的界面才是优秀的界面，所以需要检测用户完成任务所花的时间。最好限制每个任务的时间，在限定时间内未能完成任务，就被当做任务未完成。

　　　　满意度可以用主观评价来表示：任务完成后，可以就“难易程度”、“好感”、“是否有再次使用的意向”等问题向用户提问，并设置5~10个等级让用户选择。

　　　　测试方法：发声法和回顾法这样的用户测试都是一对一的形式，但性能测试是定量测试，参与测试的人太少可信度太低，也不能用来说明问题。因此经常以集体测试的形式进行，每1~2名用户配备一位监督者，制定测试内容、确认完成任务、检测任务完成时间等。

　　　　数据统计处理较多的心理学实验里，一般至少会收集20~30人的数据。而且所谓20人是目标用户的人数，因此整体而言需要40~60人。

　　　　原则上讲，一次性能测试会测试多个用户界面。如果只测试一个用户界面，那么即时最终得到了任务完成率和平均时间，这些数值的好坏也没有一个标准。通过对比竞争产品，比较多套方案，或者对比改版前后的数据，就能进行客观评价了。（在让每个用户使用多个界面时，使用顺序应该不相同，这可以避免使用顺序带来的影响。）

　　　　性能测试的限制：当任务完成率只有20%时，团队只知道这个任务的执行效率很低，但不知道用户究竟是为什么没能完成任务，因此会感觉无所适从。

　　　　发声思考法可以解决这个问题，但实际操作过程中，只要采访人员不提问，用户就不会主动说话。如果提问的话，用户又可能就会停下手上的动作进行说明，这样一来测试完成任务的时间就没意义了。

　　　　缺少发生思考的性能测试没有任何意义，但如果同时实施这两种方法，又需要很大预算。所以只要还未明确定量数据的必要性，就不应实施性能测试。我们没必要把有限的资源浪费在定量数据的测试上。相反，反复进行的发生思考法这种只需几个人参加的测试，可以更好的改善界面。

上文内容不用于商业目的，如涉及知识产权问题，请权利人联系博为峰小编(021-64471599-8017)，我们将立即处理。

21/212 >

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选