大数据:顾名思义就是很大量的数据。不过如果只说到这里的话,未免太敷衍了。大数据除了量大之外,还有其他几个特点:借用5V的理论,量大,高速,多样性、低价值密度、还有真实性。因为这五个词的英文都是以V开头的,所以叫5V。
但是在普通人的眼中,大数据就被理解偏了,很多人都把大数据理解成了用户的隐私。比如我今天上午刚在网上搜了买房子的信息,下午就有中介给我打电话,向我推荐二手房。类似于这样的事情比比皆是,我们几乎每一个人,每天都被骚扰电话所困扰着。这些骚扰电话除了广撒网之外,有很多的骚扰电话竟然非常精确地能够匹配到你的需求。当你需要钱时,就有人给你打电话,向你推荐贷款;当你想买房子时,就有房产中介给你打电话,推荐二手房;当你想买车时,就有4S店的人给你打电话……总之,无论你想做什么,总会有一个陌生人,突然给你打电话,向你推销你刚刚想的事儿。
隐私数据满天飞
这事儿确实很可怕,但是这个事儿不是我今天要讲的。我今天要讲的是大数据的技术。以上的是属于个人隐私泄露,其中有一部分的确是受益于大数据技术的发展,但更多的更主要的原因,还是因为每个人和全社会对个人隐私数据的保护意识不够强。不过好在的是我国的相关立法部门正在重点关照这个领域,我们每个人的隐私数据将来也会得到越来越好的保护。
扯远了,说回大数据技术。大数据技术是因为近些年产业互联网和工业互联网产生了大量的数据,为了处理这些数据,准确的说是为了更方便快捷并且便宜的处理这些数据,大数据技术才应运而生的。工业互联网离我们太远,我们暂时先不说。先说说产业互联网,更狭义的就是指我们的移动互联网。由于4G的到来,手机越来越成为人们不可或缺的工具,人们每天花在手机上的时间是越来越多。随之而来的自然就是人们留存在手机上的数据也会越来越多。购物的数据,吃饭的数据,骑车的数据,打车的数据,刷短视频的数据,看新闻的数据,聊天儿的数据,工作的数据,学习的数据,看电影的数据,看综艺的数据,打游戏的数据……大家可以自行查看一下自己的手机上到底装了多少个app。这么多app,组成了每个人的基础画像。为了处理这些海量的数据,为了能够让这些海量的数据跟我们说话,告诉我们有价值的信息,告诉我们每一个人喜爱偏好,聪明的技术人员发明了大数据技术。
因为IT世界里的开源概念,大数据相关的技术非常多。而其中最有名的便是Hadoop家族,同时也是全世界最流行的大数据框架。关于Hadoop的族谱见下图:
Hadoop家族
以上便是大数据技术的通俗解释。说白了,这玩意儿就是一门技术,处理海量数据的技术。为什么要处理海量数据?因为数据只有处理了才是有价值的,不处理就是一堆没用的、空占存储资源的垃圾。这种处理包含了数据采集、数据存储、数据清洗、数据集成、数据挖掘、数据探索、数据开发等等步骤,最终形成了我们想要的数据,对我们做出决策提供依据,这些决策往大了说可以是未来的商业策略,往小了说可以是手机端给用户推荐什么视频什么商品。几乎所有的互联网巨头都是大数据技术运用的高手,而我们平时所见到的大数据开源框架几乎也都是那些互联网巨头主导并开源的。这门技术,也只有互联网这样的土壤才能孕育,因为他们需要;传统企业甚至于传统IT企业都没有办法做这样的研发,因为他们不需要。这就又应了句名言:技术的发展永远都是为需求服务的。
再从具体的技术细节上来说,大数据不是一个系统,也不是一个软件,而是一种技术,一种对数据的处理方法,或者是一个平台,这种平台里面包括了很多的组件,就比如Hadoop平台那样。这种平台可以是像上图那样组合,也可以根据实际情况自行组合,一切以实际需要为准。
数据中台架构图
大数据技术是一门跨域技术,大数据平台是一种集成平台。你在市场上不可能买得到一款大数据软件,但是你可以找到能提供大数据服务的公司,他们可以做咨询,做实施,做服务,而在实施和服务的过程中,你就会发现,你所采购的不是一款软件,甚至不是几款软件,而是一堆软件的组合,同时和一系列的实施方法论,还有就是前人的经验。
大数据技术就像积木,灵活,多变,但唯一不变的是,它是为每一个客户、每一个使用者的需求来服务的。
未来,数据是每一家公司的核心资产,而大数据技术也会随着大家对数据资产的重要性的认知提升而愈发重要。