关闭

ChatGPT时代对大数据应用的展望

发表于:2024-4-16 09:19

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:i7杨    来源:CSDN

  1.1ChatGpt是什么?
  他是一款AI技术驱动的自然语言处理工具,能够通过学习理解人类语言与人进行对话;可以依据聊天的上下文与人进行互动,像人类一样沟通交流,甚至能解决方案,代码,视频脚本等专业人才,才能做的事。为AIGC(内容自动生成)文本场景满足了极多的应用需求。(AIGC还有图片、语音、视频、3D模型等各种形式内容的发展)
  1.2实现ChatGpt需要什么?
  我不是算法工程师,对其实现细节不了解;但是因为工作原因接触和自己的学习,大致理解了其实现原理;所以从自己浅显的视角分析下ChanGPT要定制化实现,需要做哪些工作。
  这里就不得不提最近很火的大模型,AI技术之前无法实现大规模应用,主要因为算力无法满足大量用户的使用。大模型是使用深度学习框架和强大的计算资源,利用大量数据进行拟合训练,通过被动学习模拟人类认知的方式,而得到数亿到数万亿参数特征的模型。ChatGPT通过深度学习训练了一个大语言模型,将文本信息输入ChatGPT系统后,能通过训练好的模型,返回符合人类语言习惯的回答。
  所以想要训练好一个新的大模型或者符合特定应用场景的小模型;
  需要以下几个基础的东西:
  ·有特定含义的数据:大量用于应用场景的大模型训练数据,或者已经训练好特征的大模型数据;
  · 调好的算法模型:Transformer预训练语言模型,涉及神经网络、深度学习等算法用于处理数据;
  · 模型训练资源:存储训练数据量级的磁盘,处理数据的内存,以及大量的计算资源,高性能GPU;
  所以现阶段想要训练特殊的大模型有两种方式:
  一种是基于已有的大模型,按照原有的训练方式添加自己处理好的数据,微调基础大模型,用以适应新的应用场景;
  另外一种是有实力的公司,可以按照大模型训练方式,从数据处理到各个阶段设计,重新跑一个全新的模型出来。
  二、大模型在大数据领域应用分析
  2.1大数据领域应用需求分析
  大数据领域的全生命周期,可以总结为如下三个阶段:
  · 首先搭建大数据基础生态,存算、处理组件;
  · 其次数据处理周期,从采集、处理、分析到数据应用;
  · 最后是定制化的数据应用。
  2.2大数据每个阶段需求人工智能应用的可能
  2.2.1ChatGPT在搭建大数据基础生态的可能性分析
  这是一个什么需求场景呢?
  比如当你想要安装HADOOP生态的插件,你告诉ChatGpt,然后它就自己网上找安装资源,自动安装,然后遇到异常情况或不能解决的问题,将它需要的条件和需求告诉你,或把原因反馈给你寻求帮助。
  分析一下,这个跟问界的智能停车不就是一样的需求场景吗,你告诉车载智能系统“停车”,它就调用这个功能去执行这个功能。
  如何实现呢?
  在大数据基础组件安装这个场景中,在ChatGpt之上包装一层语音文字转换系统,在ChatGpt之下构建一套智能安装运维系统;然后将各种大数据组件的安装功能,集成到安装运维系统之中,通过chatGPT理解需求,将需求对接安装运维系统,理论上是能实现基础生态的安装运维驱动;只是需要构建一套智能安装运维系统,然后将功能接口对接ChatGPT接口,在运维系统之上做需求识别。
  2.2.2ChatGPT在数据处理周期的可能性分析
  这个场景需要做什么呢?
  现在这个阶段需要大数据开发工程师理解数据模型和业务需求,然后使用大数据工具,采集,构建模型,处理,存储,分析结果;这个过程核心的是对数据的理解和需求的理解,对需求的理解,通过语言模型是能实现的,但是对数据的理解,从原始数据到需求转换的这个过程,因为数据的不确定性,无法使用大模型训练出一个标准的处理方式。
  无法处理的痛点能否解决?
  因为原始数据字段的定义没有特定的含义,所以无法通过大模型,训练出标准的处理方式,理解数据成为大模型的难点。
  那有什么方式能解决呢?
  我能想到的,ChatGPT对于数据识别这个环节,先整理下大数据可能的字段含义,然后将所有含义做一张映射表,大模型自定义数据场景语义字段,通过大模型训练的自定义标准字段,构建初始的详情数据;
  让大模型能理解详情数据,当有需求时,可以这样对chatGPT说:“将kafka中app1的数据,构建一个按用户、性别、省份维度分钟级聚合的任务,索引为index_app1写入ES,并部署”。
  好像也能解决,但是这里需要多个操作,第一是自定义字段和语言模型的映射,让语言模型能识别数据scheme;第二有任务自定义(SQL语义自动生成能力);第三任务cicd部署能力;这是基础的三种功能,其他维护,优化监控等。这个周期需要极大的工作周期,基本要从零到一构建。
  2.2.3ChatGPT在数据应用的可能性分析
  数据应用有哪几种?
  数据分析,告警驱动,搜索,推荐,异常检测等。
  对于不同的应用有不同的方案思路,这里选数据分析这个场景做分析;
  ChatGPT要实现数据分析,需要做什么呢?
  分析数据应用,默认将数据处理完成,只是宽表数据;
  · 首先依旧是对数据scheme的理解,
  · 然后将语音转换成文字,
  · 之后将文字需求转换成SQL执行;
  · 最后将计算结果返回给前端用户形成报表。
  这种方式也是最简单大数据应用能接入chatGPT的场景,应为宽表字段可以很简单的更改和定义,可以构建这样一个系统,将语言的中的信息和字段在这个系统入口处分类;然后包装查询统计SQL,将语言里提到的维度填充到SQL里,获取执行返回结果,前端用BI报表渲染就可以实现应用的跨用户使用。
  这种方式是目前最简单能落地的应用,虽然通过语音系统构建也可以简单构建,但是引入chatGPT,可以增加识别能力。
  三、结语
  ChatGPT依靠训练的语言大模型,极大的提升了语言类AIGC的应用。在大数据领域,期盼的愿望是可以通过语言就能实现大数据开发到应用,将chatGPT当作自己的私人管家,大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力,可以将精力聚焦在更有价值的地方。
  工作不是存量市场,就像电脑刚出现的时候以为好多人将没有工作,但是围绕电脑的工作却创造出更多价值,提供了更多的工作岗位;大数据也如此,到目前为止,大数据行业对于数据的应用如同老牛犁地,应用只是加速传统技术的处理能力和有限的大数据挖掘应用,当释放了数据领域者的生产力,相信大数据领域的工作者可以挖掘出更多有价值的数据黄金。
  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号