大数据算法及应用场景首篇:统计与分布

发表于:2019-3-25 10:48

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:小川杂谈笔记    来源:今日头条

  算法是大数据的最核心价值部分。大数据的挖掘是从海量、不完整、噪声、模糊、随机、碎片数据中发现其中隐藏的价值,以及潜在的有用信息和知识的过程。什么情况用什么算法呢?今天给大家做个大数据算法入门。
  一、统计分布
  统计分布(frequency distribution)亦称“次数(频数)分布(分配)”。在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体单位在各组间的分布。分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比,称为比率或频率。将各组别与次数依次编排而成的数列就叫做统计分布数列,简称分布数列或分配数列。它可以反映总体中所有单位在各组间的分布状态和分布特征,研究这种分布特征是统计分析的一项重要内容。如上的BLABLA的一堆,具体来看看到底能干什么吧。
  1)平均值
  举个栗子!中国男人背上“油腻”一词好几年了,根据《2017中国人运动报告》数据显示,至少在步行量上,男生要高于女生:男生平均每天走5874步,女生日均步数达到5268步。注重运动加上更新一下观念,中国男人或许能保持一下少年感。
  
  2)同比和环比
  同比一般情况下是今年第n月与去年第n月比。
  环比,表示连续2个单位周期(比如连续两月)内的量的变化比。
 
  3)高斯分布
  正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
  
  高斯分布怎么用?举个栗子:这张图大家都见过吧。收集尽量多的用户的开机时间,然后,查看时间的分布如何。
 

  4)柏松分布
  Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。
  
  小小柏松分布在大数据领域可以解决大大的问题!干货来了!
  栗子1:玩电商和仓储的,进来看看。已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?
  假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:
  a.顾客购买水果罐头是小概率事件。
  b.购买水果罐头的顾客是独立的,不会互相影响。
  c.顾客购买水果罐头的概率是稳定的。
  在统计学上,只要某类事件满足上面三个条件,它就服从"泊松分布"。
  
  根据公式,计算得到每周销量的分布:从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);如果存货5个罐头,98%的概率不会缺货(平均59周发生一次)。
  5)伯努利分布
  伯努利分布(英语:Bernoulli distribution,又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。)。通俗讲,一件事情,只有两种可能的结果。伯努利分布描述了其中一种结果的概率为a,另一种结果的概率为100%-a。再通俗的讲,生一次孩子,生男孩子概率为p,生女孩纸概率1-p,这个就是伯努利分布。
  

     上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号