如何用大数据开发套件周期调度机器学习算法

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> 大数据
>> 查看资讯

如何用大数据开发套件周期调度机器学习算法

发表于：2017-2-23 10:08

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：云栖博客来源：51Testing软件测试网采编

软件开发

大数据

　　机器学习能发现数据下隐藏的各种客观规律，对提高产品的智能化程度，提升用户满意度等方面有很大的帮助，这里不再赘言。那么怎么实现一个机器学习系统，并和大数据的开发套件上的调度结合起来实现自动化呢，本文就一些测试数据做一个例子。

　　场景假设

　　我这里用著名的鸢尾花数据集作为测试数据。那就假设我是一个植物研究院，希望根据已经有的一些花的数据和分类，判断新收集上来的样本的花的类型（类似的，企业数据里可以判断用户会不会买，会不会投诉甚至流失）。这里用的算法就先简单一些，用朴素贝叶斯。

　　使用场景是，假设我们的项目里已经有一些历史的花的数据，每天训练可能还会有一些更新。希望针对这些训练数据，做出一个算法模型，预测新采集到的花的类型。

　　数据准备

　　我Iris表存放当天的全量训练集。而预测集，用Iris_daily表做每天增量同步。具体每天配置增量同步的方法，可以参考这个例子。比如1月18日凌晨做的计算，会计算1月17日的全量数据。那就把17日的数据放到ds='20170117'这个分区里。

　　表结构如下

odps@ >desc iris_daily;

+------------------------------------------------------------------------------------+

| TableComment: |

+------------------------------------------------------------------------------------+

| CreateTime: 2017-01-18 13:31:40 |

| LastDDLTime: 2017-01-18 13:31:40 |

| LastModifiedTime: 2017-01-18 13:39:45 |

+------------------------------------------------------------------------------------+

| InternalTable: YES | Size: 1960 |

+------------------------------------------------------------------------------------+

| Native Columns: |

+------------------------------------------------------------------------------------+

+------------------------------------------------------------------------------------+

+------------------------------------------------------------------------------------+

| Partition Columns: |

+------------------------------------------------------------------------------------+

| ds | string | |

+------------------------------------------------------------------------------------+

--浏览一下前几条数据：

+--------------+-------------+--------------+-------------+------------+------------+

+--------------+-------------+--------------+-------------+------------+------------+

| 5.1 | 3.5 | 1.4 | 0.2 | Iris Setosa | 20170117 |

| 4.9 | 3.0 | 1.4 | 0.2 | Iris Setosa | 20170117 |

| 4.7 | 3.2 | 1.3 | 0.2 | Iris Setosa | 20170117 |

+--------------+-------------+--------------+-------------+------------+------------+

　　模型训练

　　我们先在机器学习产品里搭建一个算法。看一下效果。画布区的配置可以参考下面截图（这里需要说明的是，在机器学习画布区里测试的时候yyyyMMdd测试的时候业务期是今天，但是实际上企业上我们都是今天跑昨天的数据，业务期也是昨天的，可以在画布区把任务先配置成"ds=@@{yyyyMMdd-1d}",到后面嵌入到大数据开发套件前再改成ds=@@{yyyyMMdd}，）：