关闭

数据质量对于成功的AI/ML建模的重要性

发表于:2024-2-28 09:32

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:佚名    来源:CSDN

  人工智能 (AI) 和机器学习 (ML) 技术有可能彻底改变许多行业。但 AI 和 ML 有一个鲜为人知的致命弱点。Refiniv在2019年“更聪明的人类、更聪明的机器:人工智能/机器学习全球研究”中进行的一项研究表明,部署和采用人工智能和机器学习的最大障碍是数据质量差。来自替代资源和非结构化数据的数据正变得越来越重要,但在它们的见解变得真正有价值之前必须对其进行“提炼”。 
  “garbage in, garbage out”这句话适用于 AI/ML 部署——如果你给模型提供坏数据,分析和结果也会低于标准。根据 Refiniv调查,66%的受访者表示,糟糕的数据质量会影响他们部署机器学习和人工智能技术的能力。该报告还表明,在ML模型中处理新数据的四个挑战中的三个与数据质量有关。这些挑战包括有关数据历史、覆盖范围和总体的准确信息,识别不完整或损坏的记录,以及清理和管理数据。数据科学家面临的最大挑战之一是找到高质量的数据,因为他们必须花费 80-90% 的时间来清理和标准化不良数据。
  01 为什么数据质量很重要?
  在进行数据分析时,无论是否用于人工智能,数据质量都极为重要。数据质量有两个组成部分:
  1.缺失数据
  2.数据不正确
  这两方面都存在很大问题,每个问题的影响只能根据具体情况来确定。如果ML模型中不支持数据质量,则会导致误解和错误推断。研究表明,公司在分析自己的公司数据的同时,也会分析市场数据和非结构化数据,这意味着他们正在结合三种不同的数据源来获得洞察力。传统上,结构化数据一直是强大的定量分析的关键,非结构化数据是公司面临的主要挑战。来自其他来源的数据大多是非结构化的,需要对其进行改进和验证以确保准确性。  
  自然语言处理 (NLP) 等机器学习方法用于构建和优化基于文本的数据,Facebook谷歌一直非常关注非结构化数据,他们的成功是使非结构化数据更容易、更准确、更有效。尽管 ML 使从非结构化数据源中提取信息变得更加容易,但需要大量的技巧和耐心来训练ML模型,这仍然是一个耗时的过程。
  02 移动应用程序:缺少与 AI 解释的链接
  确保数据质量良好的最佳方法是从易于访问的可靠来源获取数据。对于可信来源,使用移动应用程序可能一种是方式。与许多组织仍在使用的传统纸质表格相比,移动应用程序可让您更好地控制数据质量,并且您可以在需要时轻松访问数字数据。 
  移动应用程序是人工智能实施的关键,因为它们可以提高数据质量。传统数据来自纸质流程,通常容易出现人为错误。如果数据质量差,人工智能也会受到影响,更不用说您将面临纸质表格丢失的信息或时间延迟。而且,用基于移动应用程序的数字表格取代这些流程,将消除错误并提高数据质量。移动应用程序可以自动捕获时间、位置和数据等信息,甚至可以验证计算、数字签名、条形码和读数。特别是当现场数据用作模型的关键数据源时,收集现场数据的移动应用程序对于成功实施 AI 至关重要。
  03 不良数据的实际成本
  我们可能没有意识到,不良数据可能会花费很多钱(每条记录高达10美元)。数据质量公司的一份报告“不良数据的实际成本”指出,员工收集的信息中有高达20%是不正确的。该报告表明,验证信息每条记录的成本高达1美元。这笔钱用于支付员工工资、运行计算机的成本以及使用验证解决方案。 
  但是,每条记录一美元似乎具有误导性,因为如果使用批处理进行验证,成本会大大增加。然后成本将上升到每条记录10美元,如果公司没有检查记录的机制,这个数字也会被低估。由于退回的邮件、错放的货物和错失的营销机会,每条记录的费用可能高达100美元。这意味着您将损失收入并且不得不在运输过程中花费大量资金。简而言之,不良数据不仅需要花费金钱来提炼和修复,而且还会因为公司无法向客户交付和接触潜在客户而造成收入损失。
  尽量减少不良数据的最佳方法是实现无纸化和数字化所有流程。通过无纸化、提高生产力和减少处理不良数据的隐性成本,您可以节省大量资金。构建功能强大的应用程序将帮助您的公司节省时间并降低成本。当一切都可以在最少的人工干预下数字化时,基于纸张的流程需要花费大量时间和劳动力来管理。
  04 移动应用程序生成器
  要制作可以促进您的业务流程的移动应用程序,您将需要合适的应用程序构建器来为任何移动设备构建移动表单并实现无纸化。为此,低代码开发平台可能是理想的选择,因为它们允许公民开发人员构建企业应用程序。许多低代码开发平台可以使用最新的移动应用程序功能(如 GPS、相机等)在几分钟内开发出基于移动设备的表单,以准确快速地捕获数据。 
  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号