大数据有哪些分析误区?

发布时间：2020年12月09日 06:59:40 来源：环球青藤点击量：780

【摘要】数据分析师的需求来源，通常是业务方。业务方最熟悉业务，了解自己的产品和业务，但是数据分析师最熟悉的是科学的统计分析方法，所以两者在沟通的过程中可能就会产生理解偏差。那么，大数据有哪些分析误区呢?今天就跟随小编一起来了解下吧!

1.数据样本量不够

我们在分析某些特定的业务或用户行为时，可能存在相对关注度较小，用户使用很少的情况，或者是在提取数据的过程中，增加了很多的限制条件或者多种用户行为或属性进行交叉后，得到很少的用户样本。

对于这种数量小的数据样本得出的结果很有可能会出错，但是样本量多少才算够多呢?这个没有一个特定的数值，通常只能结合具体的场景进行分析。

建议：可以把时间线拉长，或者把不重要的限定条件去掉，来获得足量的样本。

2.存在选择性偏见或者幸存者偏见

统计学的另一大理论基石，便是中心极限定理。

简单描述下就是，总体样本中，任意一个群体样本的平均值，都会围绕在这个群体的整体平均值周围。

通常我们会按照这个原理，用随机抽样的方式，通过对样本的分析来估计整体。当然得出的结论会比较接近真实情况的。可是有一个问题是，我们在采集数据的过程中是否是真的随机。

举个实际业务场景的例子，在软件应用升级期间，通过衡量用户的日活、人均播放量、人均播放时长等指标，来判断新版本的欢迎度是否优于老版本。听起来好像没有什么问题，其实这里就隐藏了选择性偏见，因为新版本发布时，第一批升级上来的用户往往就是最活跃的用户。这批用户在这些指标上，本来表现就是优于一般用户的，因此指标数据更高并不能说明更好。

3.混入脏数据

脏数据是指严重不合理或对于实际业务毫无意义的数据，通常是由程序bug、第三方攻击、网络传输异常等原因造成的。

这种数据的破坏性比较大，可能引发程序报错，对指标的准确度影响也较大。

关于大数据有哪些分析误区，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

分享到：编辑：方梦茹

上一篇：大数据的价值究竟体现在哪些方面? 下一篇：数据可视化有哪些优势?