大数据,自从2015年上升为国家战略以来,热度一直不减,影响持续增加,俨然成为一门显学。然而,对于大多数人来说,大数据及其相关的很多概念,都还比较模糊。

       首先,一些基本概念需要了解。大数据,主要是指具有体量大、来源多样、生成极快、且多变等特征,并且难以用传统数据体系结构有效处理的大量数据集的数据。国际公认主要有4个特征:体量(volume),构成大数据的数据集的规模;多样性(variety),数据可能来自多个数据仓库、数据领域或多种数据类型;速度(velocity),单位时间的数据流量;多变性(variability),大数据体量、速度和多样性等特征都处于多变状态。数据,主要是指信息的可再解释的形式化表示,以适用于通信、解释或处理。比如,我们常见的Excel表的一个单元格就可以承载一个数据。数据库,主要是支持一个或多个应用领域,按概念结构组织的数据集合,其概念结构描述这些数据的特征,以及与其对应的实体间的联系。这个概念作为外行人理解起来稍难,可以简单理解为存储数据的集合。

       其次, 相关基本概念也要了解。云计算,主要是指一种通过网络将可伸缩、弹性的共享物理和虚拟资源池以按需自服务的方式供应和管理的模式。其实,理解这个概念很简单,可以类比为以前一人一个存衣柜,现在存衣柜是分格组合的,你可以根据自己的需要,组合一个存衣柜出来。物联网,主要是通过感知设备,按照约定协议,连接物、人、系统和信息资源,实现对物理和虚拟世界的信息进行处理并作出反应的智能服务系统。听着高大上,实际上你每天可能都在接触,天天扫的那个二维码,就是一个有效的物联网入口。数据中心,主要是由计算机场站(机房)、机房基础设施、信息系统硬件(物理和虚拟资源)、信息系统软件、信息资源(数据)和人员以及相应的规章制度组成的组织。当前,数据中心是新基建的重要内容,这下估计你知道什么是数据中心了吧。

       最后,相对深层概念同步了解。数据治理,主要是数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。说白了,数据治理可以反过来说,就是要治理数据,即通过内外部共同努力,保障数据及其应用过程中的运营合规、风险可控和价值实现。数据资产,就是一个组织拥有和控制的、能够产生效益的数据资源。比如,某个机关拥有和控制的客户姓名、电话等数据,就是可观的数据资产。数据挖掘,就是从大量的数据中通过算法搜索隐藏于其中信息的过程。简单点,全校的学生成绩,用某种算法,可以统计出多少学生偏科,就是一种最简单的挖掘之一。