上一版    下一版
   
 
 
网站首页 | 数字报首页 | 版面导航 
  往期回顾:    高级检索   出版日期: 2014-07-24
2014-07-24 第B02版:产业·科技 大 | 中 | 小 

大数据,不单单是个技术问题

作者: 卫人 来源:中国经济导报 字数:1754
产经时评

卫人

    即使是在信息技术领域最具人气的大数据,也不得不借助体育赛事向世人推销自己,而拥抱足球,至少在直觉上可以降低数据的枯燥和乏味。
    在巴西世界杯比赛期间,著名企业管理软件解决方案提供商德国SAP公司宣布了和德国国家队的合作,他们通过SAP Match Insights软件分析世界杯比赛中德国队产生的海量数据,评估影响每场比赛胜负的关键因素,从而提高了队员个人和球队的整体表现。德国队最终捧杯,自然为SAP的数据分析增色不少。
    事实上,大数据在本届世界杯上所演绎的神奇不止于此。据媒体报道,在对本届世界杯所进行的大数据预测中,百度、微软、谷歌等互联网公司完胜以高盛、德意志银行为代表的华尔街们。其中,百度大数据以全场67%、淘汰赛94%的准确率完胜对手。
    云计算和大数据似乎正在使预测未来成为可能。不过,维克托·迈尔-舍恩伯格在《大数据时代》一书中指出:“大数据本身探寻的是一种趋势,而非精准性,若要无限接近统计结果,必须让大数据与精细的传统统计方法互补,而非两者相互替代。”这让人想起了测谎仪,坦率地说,两者在一定程度上有相近之处,测谎仪是靠精心编写的问题来判断被测者是否说谎,其判断应该说是一种倾向,其价值在于帮助刑侦人员确定正确的侦破方向。
    尽管人们在概念认识上还未达到一致,但这丝毫不妨碍大数据在内涵和价值上的丰富多彩。例如,德国汉莎航空公司在多年的飞行中收集了很多数据,包括温度、湿度、降水率等,在飞行结束后,这些数据就没有用了。几年前,汉莎航空决定将300多架飞机所收集到的数据交给德国气象局,结果天气预报的准确率提高了8%。同样,为探寻中医的望闻问切和癌症之间的关系,日本富士通公司和中国的一家中医院合作,将中医院以前一些癌症患者的信息收集在一起,通过大数据运算,结果找出了23个和癌症相关的体征信息,其中21个和教科书完全吻合,而另外2个则是人们以前并未认识到的。
    大数据的兴起得益于信息技术领域的网络、存储、计算、软件等诸多能力的全面提升,例如,1985年美国国防部更新的超级计算机,只相当于今天的iPad2;上世纪90年代买1G的闪存要1800美元,而现在只要0.25美分!当技术进步和成本下降唤醒了一切能够被数字化的东西时,大数据时代自然是渐行渐近了。原有数据大量地被转化为数字化的数据,而传感器和物联网的普及,更使新的数据如潮水般铺天盖地而来。但是,以前的信息绝大多数是结构化信息,而现在非结构化信息越来越多,如一条微博、一张图片、一段视频,等等。人们说海量的数据是一座“金矿”,但就目前人类的开采能力而言,我们很难说它是一座高品位的富矿。对于结构化信息,目前我们可以分析出15%的信息,而对于非结构化信息,能分析的不足2%。而未来的大数据时代,80%的信息都将是非结构化信息。或许是囿于人类现有的信息分析能力不高,以致有人认为对信息价值的判断有些过度化,许多信息根本不是极具价值的“金矿”,而是一堆信息垃圾。但随着数据分析计算能力的提高,越来越多的所谓垃圾会成为闪闪发光的“金矿”的,但前提是我们必须将其存储下来。
    当然,面对海量的大数据,我们也不得不在焦虑中面临抉择:是为了追求百分之百的准确而尽可能地采纳数据,还是考虑到成本因素而允许具有一定误差但更具经济性的采样;而在隐私保护与数据精准之间,我们也需要寻找到一种平衡,数据开放是大数据的要求,但个人数据的开放必然涉及到安全和隐私问题。据预测,随着智能设备和智能家居的普及,到2020年,一个中国普通家庭一年产生的数据相当于半个国家图书馆的信息储量!
    数据共享是大数据时代的基础,但数据分析既然能够带来巨大的价值,那数据本身作为资源必然有其自身的价值,而在开放共享的过程中,有些数据是公共资源,而有些数据则具有专属性,那么这些专属性数据在交易中又该如何定价呢?这涉及到数据的所有者、数据的采集者、数据的分析者,等等,而且数据可以反复使用,无疑更增添了数据定价的复杂性。
    显然,面对大数据时代的到来,当互联网技术公司潜心于大数据分析技术攻关以提高数据挖掘水平时,如何衡量数据的市场价值并据此寻找适宜的商业模式,同样是一道亟待解决的难题。
 
 
地址:北京市宣武区广安门内大街315号信息大厦B座10层
邮编:100053 电话:010-63691895 传真:010-63691390
技术支持:北京紫新报通科技股份有限公司