引言:说到大数据,想必各位对于互联网大数据已经熟得不能再熟了,可你知道所谓的大数据到底有多“大”?要如何玩儿转工业大数据?
西门子中国研究院大数据分析研发总监——田博士最近做客中央人民广播电台《经济之声》节目,讲了一堂“烧脑课”。
大数据多“大”
说到大数据首先就是大家先要看得见,眼见为实。
现在数据量非常快地增加,我们每天都在用手机电脑,每时每刻每个人都在给数据量的增加做贡献。作为所谓的大数据到底有多大呢?
我们先来说这个“大”字。
从数据增长来看,50%全球的数据是在过去一年内产生的,到2020年全球数据会达到40zb。zb是什么概念?zb相当于十万亿亿个字节。
如果平摊到每个人身上来说,到2020年每个人都会有超过5T的数据,包括我们刚出生的婴儿,以及老年人。但其中只有小于0.5%的数据被利用分析过。所以有人说大数据是一种资产,是未被发掘的金矿。但大数据一定“大”吗?同样的数据放大不同的领域,有的是大数据,有的就不是大数据。
啥是工业大数据
比如说在工业领域,在某个产线上比如流程行业,可能一条产线会有1000多个测点,但通常要分析一个问题,可能会选取十几个测点去分析一个具体的部件或是问题。
那么怎么去采集数据?比如说对于数据变化特别快的,压力,我们大概一秒采很多次;对于变化不是特别快的,温度,我们平均2秒采一次。
那么我们每次采到的数据是什么数据呢?是一个浮点数,比如四个字节。那么我们每分钟就可以采到1点几k的一个数据,由此每年就可以采集到600-700兆数据。如果采集频率高一些就可以达到1G。
这1G的数据就代表着这条产业线上我们要分析的问题,一年的数据,所以足以代表产业线一年的状态,也就可以称为一个信息量足够大的大数据。
但如果我们考虑互联网领域,比如一个网页通常包含了图片等等,加在一起可能是2兆-7兆不等。我们1G的数据可能包含200-300个网页。但对于互联网领域这200-300个网页发现不了任何问题因为互联网太浩瀚了,200-300个网页是非常非常微不足道的一小部分。
所以我们可以看到这1G在工业领域可能就是大数据,但放到互联网领域就不足以称为大数据。所以大数据的大也是放在不同场景下来考虑的。
数据质量是关键
特别是在工业领域,由于传感器物理特性本身由于工艺和环境会导致很多数据采集上来并不是可靠的。
比如三个相关联的数据,我们要通过两个来验证第三个是不是正确的。这样我们数据质量管理就要花费很大的精力。
所以数据速度或者质量来讲,都带来很大的复杂性。将大数据称之为困难数据或者复杂数据是更加准确的,这就是大家概念中的大数据。
(转载)