最近IT界热炒“大数据”,并认为不管是企业还是个人,所有人都在进入“大数据时代”。而事实上,“大数据”早已至商用阶段。
IDC(美国国际数据中心)近期发布的报告称,未来10年全球大数据将增加50倍。
“1995年时,人们看到20G(1G=1000kb)的数据会觉得巨大无比;前两年我看到以T(1T=1000G)来计算的数据还感到惊讶;现在则已经看到以P来计算――1P=1000T,10年之间全球数字存储空间翻了将近1万余倍。未来更大的数据还有Exa(10的18次方)、Bronto(10的21次方)等。”某互联网资深人士告诉记者。
“高容量、多类型、不断刷新,为用户带来最终价值”,这是IDC对大数据的定义。通过庞大的数据规模、复杂的数据结构、企高的数据关联度,大数据给人类带来了新的挑战。
7月24日,英特尔公司针对中国市场发布自己的Hadoop大数据分析软件;3月29日,美国奥巴马政府投资2亿美元启动“大数据研究和发展计划”。
“以前我们是单机程序,现在很多互联网公司的大部集群有几万台计算机。”这位人士说,大数据挖掘技术在IT界已存在多年,但现在用得越来越多。
“最近三五年,只要是做大数据挖掘的,都用这个工具。”该人士表示,目前全国多家互联网公司正在为用户服务的领域混战。业界普遍使用Hadoop数据挖掘方法,通过把大数据量汇集成一小块一小块处理,最后合到一起去的办法,来解决大数据的分析问题。
他还认为,除了大数据,物联网未来如果从目前的发展期突破瓶颈期,互联网的信息会进一步急剧增加,未来全球所有东西都能成为网络信息,这将有希望给用户带来更多高价值信息和重要用处。
“大数据”:互联网新战场?
“谷歌针对大数据存储早就发了论文,有一定影响。但国内的公司也在慢慢积蓄力量的阶段。到了应用阶段,大家都愿意投入,竞争比较激烈。”上述人士透露,目前已有多项大数据服务引起国内同行激烈竞争。互联网大公司内部对于大数据的基础算法有雄厚的技术储备。例如百度、阿里巴巴等企业,原来在基础投入上不够多,但现在投资量非常大。
源自智能设备和视频等器材的普及,图像、视频、音乐文件、还有其他基于社交媒体的文件、在Web上工作后得到的信息,都称为大数据。有资料表明,大数据的应用将使新硬件和新软件信息创建、搜寻、管理和存储的成本降低至2005年的1/6。
拥有海量用户的中国门户及社交网站和移动信息终端的迅速增长,使中国成为最大的大数据市场之一。中国电子信息产业发展研究院(CCID)近期发布报告并预测,2012年中国数据库软件市场规模将达38.71亿元,比2011年增长20.6%。
国内目前最为明确的大数据产品有云战略的网盘服务,还有基于大数据的搜索、视频、广告、推荐服务等。“推荐”作为单独产品虽然还没有浮出水面,但各家互联网公司已开始发力争夺市场。
通过数据挖掘提供的服务中,搜索最典型。目前互联网上炒得火的是“推荐购买”,借互联网用户之间关系的挖掘做服务。两亿网民互相联系,这使信息数量级极度膨胀,相关公司针对每个用户的兴趣爱好建模,数据量非常庞大。
国内某知名网站手机客户端管理人员告诉记者,用百度统计,可以做出全国用户里北京市东城区某个街道内谁在上某网站的人数;还可以知道用户使用哪种浏览器上网,能为广告商提供广告投放渠道的信息。
据他介绍,腾讯新闻网在QQ用户登录状态下,后台识别后,就会自动向用户推出“你的好友”在看什么新闻。在GoogleTalk里,假设用户平时在这一软件里搜索‘大兴安岭’的频率较高,那么在下一次输入‘大’时,它会自动显示‘兴安岭’几个字。
再比如迅雷,其推出的“网盘”使用了网络云存储的概念,网盘空间并不是所有的物理公间,
而是在用户信息上传后,它通过类聚分析,将数据做成了引用而不是拷贝。
另外,搜狐的搜狗输入法则能挖掘用户输入偏好,快速更新词库;盛大则能提供主机服务和云服务器,提供服务器集群的服务。
“做大数据要靠数据说话。通过宏观和历史性数据才能分析成长曲线,也是策略分析的量化基础。”该管理人员表示,这对企业的要求很高――优秀的团队、高水平的数据算法人才,长期的用户积累和推算,还要不断修正结果,才能更好地利用大数据。
“大数据”:谁人真正需要?
中国的大数据市场,从全国电信、电力、金融、社保、医疗、房地产、教育等政府部门,到门户网站、电子商务网商、社交网站等,覆盖面非常广。相关部门都拥有丰富的大数据资源。
一部分国家部委和地方政府开始进行“一体化”建设,以期解决全国信息割裂问题;国内互联网公司在大数据的商业应用方面也在向前推进。但是,仍有很多问题制约着中国大数据分析的深度。
“其实,做好大数据的分析,就是要在海量的信息数据中发现以前被忽略的关联,从而提高生产效率。”上述网站管理人员表示。“大数据在理论上可以减少以前分布在不同维度经济生活中的信息不对称,但前提是在指标上必须建立统一的数据库。”他说,目前大多数网站还没有这样的规模和积累。
据上述IT界资深人士介绍,纯IT企业提供的解决方案,可能更适合类似银行、证券交易所这样的个体企业。他们面对的大数据比较单纯,比如用户储取款信息、股票信息、企业经济运转的信息,而不像互联网信息中多是垃圾信息,对数据的要求不一样,最终应用也不一样,后者的算法会更困难、更复杂。
“银行信息更有价值,目前全球各大投行都有自己的数据分析基础。比如分析股票预测,他们都有相应模型来计算。他们对数据的要求非常高,模型考虑也非常多。而互联网在应用上不会要求那么细,因为两者的市场不太一样。”该资深人士分析。
据透露,他的团队目前在做互联网文本数据挖掘,包括聚类、垃圾识别、反作弊、质量判断等目标。“这些只是搜索内部的方法,一项搜索产品需要非常大的技术团队支持。”
Cris是微软中国有限公司互联网搜索引擎部门的一位项目经理。她告诉记者,微软虽然是一家传统的IT公司,但是最近也发力于互联网产品,除了传统的IE浏览器和Office办公软件里的Outlook等,微软也有很多互联网产品,如Msn和Bing,其他传统软件也在推在线服务。
“微软本身就有很多大数据。通过云计算和Office的升级,微软正在经历整体转型――把线下的产品放到线上。”Cris表示。
据她介绍,微软在美国的公司将Bing进行了大改版。以前它是左右两栏,左边显示搜索内容,右边刊登广告。改版以后,Bing分为了3栏,左栏是搜索结果,右栏是与Facebook合作的社交界面,中间则是BingKnows――能将用户所需要搜索的数据进行信息整合,通过挖掘分析,能找到关于某一关键词的所有相关文章、相关报道。
“大数据”:挖掘何时成熟?
“现在大数据的基础算法、处理机器、本身调度和资源的节约上还存在问题。人们对数据的认识和目标本身还不太清楚。”上述资深人士表示,分析小数据时有很多想法可以去算着看,而大数据计算过程很复杂,即使付出较大代价也不一定能把问题解决得非常好。
“数据建模也没有做好,还要更好地找准目标。”他表示,目前他们对有价值的信息,也只能看准一个点就去做这一个点,未来可挖掘空间巨大――关键是如何发现有用的点,并将其发掘出来。
北京赛立信市场调查有限公司研究部副总监陈叶红认为,随着互联网新兴媒体的呈现,网络社交方式越来越活跃,这对数据分析的影响很大。原来分析时只采用2~3个影响变量的,现在变成了几十个。“这么复杂的相关性,如果不能很好把握,得出的结果会似是而非。”
“大数据的分析之所以难实现,就是基础的东西不健全,导致采集上来的数据无法量化。大家都很强调定量调查,特别是跨国企业,欧美政府习惯用定量数据来支撑,认为数据的说服力比感觉更大。”陈叶红表示,现在大多数企业的整合分析能力不够。有的是由于企业对数据管理不规范,但更多是害怕数据整合外包泄密。
“目前跨国公司重视通过内外力量实现自我数据整合分析的能力。但国内企业对此方面基本尚未启动,有的企业即使有信息部门,也不是重要部门,人员能力和功能定位都很有限。当然他们更没有形成外包概念,问起来他们会觉得奇怪:‘这个还需要外包?’”陈叶红认为,除了已经与国际接轨的互联网行业,国内其他行业的企业也应该跟上大数据时代的步伐,至少在常规数据积累方面可以加以改进。
上述资深人士则认为,目前一些小企业无需操心大数据,而银行业等则需要用到大数据挖掘。目前数据挖掘更多需要的是目标,然后投入做算法,而不是发展挖掘软件,“至少现在没到这个阶段”。
他说,也许将来会有某家公司创造一种方法,很容易就能把有价值的信息组织起来,“那将是一件很牛的事”。
对于大数据未来的应用前景,Cris认为短期内是在做广告用户的精准定位上,但随着未来更多传统行业的电子化,更多信息的进入是大势所趋,“大数据将会在电子商务和社区服务中,在与钱有关的方面大显身手”。