数据分析是一个获取原始数据,并将原始数据转换为有效信息的过程。那数据分析师工作内容又是什么呢?
数据分析的工作看似简单,实则可以细分成以下六个步骤:
1.确定业务需求
首先,数据分析师需要根据客户的要求,确定业务需求,从而指定将哪些数据作为分析输入。这一步骤看似简单,但是却不可省略。
在没有搞清需求的情况下,你忙活了好几天,还熬了几个大夜,给甲方爸爸整理出了苹果手机市场的分析报告,结果甲方爸爸告诉你我卖的苹果是用来吃的。
当然,这也只是一个笑话,但仔细确定业务需求的确非常重要。如果甲方爸爸不满意,到最后你所有的解释都是徒劳的。“我觉得这样的分析结果是有用的……”甲方爸爸冷冷一句:“我要我觉得,不要你觉得。”
2.收集数据
没有数据怎么分析呢?所以数据分析师需要学会收集数据。
许多人对于收集数据的理解还停留在在商场里拉人填信息上面。当然,这也不失为一种方法。其实,数据的来源有很多。这些数据有可能是来自传感器(例如,交通摄像机、卫星、记录设备,等),也有可能是来自采访记录、在线资源或阅读文档等等。想要获取这些数据,我们还可以学习爬虫技能来爬数据。
3.处理和组织数据
最初获得的数据并不能直接使用,必须经过处理或组织后,数据分析师才能对数据进行分析。显然。面对杂乱无章的数据,数据分析师也很难下手。这时,数据分析师就需要将数据以表格的形式放置在行和列中,让杂乱的数据变得简单清晰,以便进行进一步分析。
4.清理数据
以在商场找人填写信息为例,很多人并不愿意填写信息,即使他真的写了,也有可能留下虚假信息。同样,数据被处理或组织也很有可能导致数据不完整、重复或者错误等问题。
为了防止和纠正这些问题,我们需要对这些数据进行清理。因此,我总结了一些可用于处理数据的方法:
(1)常见的解决方法包括记录匹配、识别不正确的数据、删除重复的数据和列分割等。
(2)将特定变量的总数与可靠数字进行比较,查找高于或低于预定阈值的异常数据。
(3)使用异常值检测的定量数据方法,消除可能输入错误的数据。
(4)使用文本数据拼写检查器来减少错误键入的单词数量。不过这一方法有一定的局限性,因为数据分析师很难判断单词本身是否正确。
5.探索性分析数据
对数据进行清理后,数据分析师就可以对数据展开分析了。数据分析师可以应用探索性数据分析的各种技术来挖掘数据中包含的信息。分析数据的方法有很多,例如:
(1)生成描述性统计数据(例如平均值或中位数)以帮助理解数据。
(2)将数据可视化,从而更直观地观察数据。
探索的过程可能会导致额外的数据被清理或者其他的数据请求。因此,3、4、5这三个步骤本质上是可以迭代进行的。
6.掌握建模和算法
小时候,我们经常这样吐槽数学:“数学好有什么用,上街去买菜又不会用公式买。”买菜是用不到数学,但是数据分析用得到。
在进行数据分析时,数据分析师还需要将数学公式或模型应用于数据,以便识别变量之间的关系(例如相关性或因果关系)。一般而言,我们可以基于数据中的其他变量开发模型,以此评估数据中的特定变量。其中,参与误差取决于模型精度(即,数据=模型+错误)。
所以,有一个好的数学功底,还是很有帮助滴~没准,你还可以用这一说法教育还在上学的小朋友,让他们好好学数学,别再提“数学无用论”了。
写在最后
以上六点就是数据分析师日常的工作内容。这六个步骤看似简单,实则博大精深,每个步骤都需要你认真对待。
不过,想要轻松地处理和操作数据,你还必须掌握各种用于数据分析的工具,例如Excel、SQL、Python、Java等等。
当你完成工作后,你先别急着放下项目,试着总结每次工作的得失。日积月累后,你也可以成为数据分析领域的大牛~