“大数据”这个词的受欢迎程度不必夸大。在过去两年中,“大数据”部分对于任何与互联网相关的活动和会议都是不可或缺的。
关于大数据的书籍和文章铺天盖地,似乎在一起传递着一个信息:越来越多的行业和人们开始并实际探索大数据的应用。我们正在一起为大数据的巨大效用绘制蓝图,但在实践中,我们仍在初级阶段迈出一小步。
大数据根源基于互联网,数据仓库、数据挖掘、云计算等互联网技术的发展为大数据的应用奠定了基础。然而,实际应用仍在探索中。
什么是大数据?
列举三个常用的大数据定义:
(1)具有较强决策、洞察和流程优化能力的海量、高增长、多样化的信息资产需要新的处理模式。
——Gartner
(2)海量数据量、快速数据流和动态数据速度、多样的数据类型和巨大的数据价值。
—— IDC
(3)或者是海量数据、海量数据、大数据,是指所涉及的数据太大,无法在合理的时间内被截取、管理、处理、整理成人类可以解读的信息。
—— Wiki
大数据的其他定义也差不多,可以用几个关键词来定义大数据。
首先是“大尺度”,可以从两个维度来衡量,一是从时间序列中积累大量数据,二是对数据进行深度提炼。
其次,“多样化”可以是不同的数据格式,比如文字、图片、视频等。,可以是不同的数据类别,如人口数据、经济数据等。,也可以有不同的数据源,如互联网和传感器等。
第三,“动态”。数据是不断变化的,它可以随着时间迅速增加大量的数据,也可以是在空间不断移动变化的数据。
这三个关键词定义了大数据的形象。
但是,需要一个关键能力,就是“处理速度快”。如果有这样的大规模、多样化、动态的数据,但是需要很长时间的处理和分析,那就不叫大数据。从另一个角度来说,要实现这些数据的快速处理,肯定没有办法手工实现,所以需要借助机器来实现。
最后,借助机器,我们可以快速处理和分析这些数据,以获得所需的信息或整个应用系统,这可以称为大数据。