本帖最后由 蒜泥小猫 于 2014-8-19 16:13 编辑 人类的判断、决心和行为需要依靠智慧,而这些智慧需要外部信息的不断输入,在未经处理以前,这些外部信息常常被叫作数据。不仅人群产生数据、机器产生数据、数据自身也产生数据,所有的天然和人造物体任何时间都在产生大量数据。而今天的信息社会发展得如此之快,近年来人类能够获取和存储的数据量正在急剧增长,其数量和复杂程度都达到人类难以应对的地步,但是汹涌而来的数据并不可怕,人们发现一旦它们得到充分利用,我们的智慧或许能够得到量子跃迁般的提升。 那么,有着如此神奇魅力的“大数据”到底是什么?它的与众不同之处在哪里?前景又会如何呢? 今天情景这是个平常的上班日,你出门时照例先看天气预报再听交通广播。当然你懂的,能不能心情很爽地准时在办公室亮相可不仅取决这些。你无法知道的是,来路上那位出租车司机昨晚被人“碰瓷”诈了五百元,一早就脾气很坏;今天空气悬浮颗粒中花粉比例突然增高,你的过敏体质将会强烈反应;而你在途中查看 iPhone 找到一款满意的相机打算出差回来去下单,却不知道因为水灾,明天那款“泰国制造”的优惠折扣就要取消…… 未来情景 X 年后也是这一天。出门前你的手持设备已经收到了今天的天气、这一刻出行方式和路线的最佳方案(以后根据获取的新数据每分钟更新一次),包括要带好抗过敏药和餐巾纸的提醒。当你接近那辆出租车时,你被建议再等大约 3 分半钟可以换一辆(物联网报告刚刚监测到前面那位驾驶员有轻度的异常操作行为,需要继续观察);而当你长时间盯着那个型号相机的画面时,一个专题讨论组和微博的搜索和文本挖掘已经在“云”上自动完成,对其供应链模型分析的结论是,因产地水灾近期现货出现紧缺的概率高达 87%…… 上述对未来的描绘不是科幻电影中的场景,也不是商业广告中的宣传,而是即将发生在我们身边的事实。能够帮助我们提高智慧的各种数据本来都存在,而随着信息技术的发展,我们会有越来越多的设备和方法记录下人和自然界事物的各种行为,“大数据”由此产生。而那些每分钟更新的“万宝全书”则是分析这些数据而产生的智慧,它将为人们带来更加美好的生活。 1. 何谓大数据 IBM 公司把大数据概括成了三个 V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。这些特点也反映了大数据所潜藏的价值(Value),或许可以认为,这四个 V 就是大数据的基本特征。“大数据”是从英语“Bigdata”一词翻译而来,过去常说的“信息爆炸”、“海量数据”等等已经不足以描述这个新出现的现象,“大数据”一说就在近几年崭露头角,并首先为全球各大 IT企业所重视。这些企业基于自身的商业目标,对“大数据”做出了各种解释,其中有一条已成共识:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。” 当然,大数据首先是数据量大。过去常用的千字节(KB)容量今天已像人民币的分币,人人口中已经是兆(MB)和吉(GB),专业的则在大谈太(TB),甚至是拍字节(PB)。这从一个侧面表明,数据容量增长的速度大大超过了硬件技术的发展速度,以至于引发了数据存储和处理的危机。 然而,大数据不只是大。海量数据的危机并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的改变。原来的数据都可以用二维表结构存储在数据库中,如常用的 Excel 软件所处理的数据,称之为结构化数据。但是现在更多互联网多媒体应用的出现,使诸如图片、声音和视频等非结构化数据占到了很大比重。有统计显示,全世界结构化数据增长率大概是 32%,而非结构化数据增长则是 63%,预计至 2012 年,非结构化数据占有比例将达到互联网整个数据量的 75%以上。 用于产生智慧的大数据,往往是这些非结构化数据。如果说大数据的特点是海量和非结构化,那也是不全面的。大数据带来的挑战还在于它的实时处理。在当今快速变化的社会经济形势面前,把握数据的时效性,是立于不败之地的关键。 智慧城市的“大脑” 如果将智慧城市比喻为人,将组成智慧城市感知功能的传感器比作人的五官,将连接传感器的网络比作神经,将控制和存储信息的云技术比作中枢,那么大数据就是智慧城市的大脑。 交通 当前,出行难问题对各大城市来说都迫在眉睫亟待解决。在信息技术的蓬勃发展时期,人们利用先进的传感技术、网络技术、计算技术、控制技术、智能技术,对道路和交通进行全面感知。例如在路面放置传感器,在路口安装监控视频,在车辆上配置全球定位系统(GPS),可以对每一条道路实时监控,对每一辆车进行控制,以提高交通效率和交通安全性。可是,如果要实现右上图表中的“未来情景”,上述技术仅仅达到“中枢神经”的控制层面,远没有发挥“大脑”的智慧。大数据下的智慧交通,就是融合传感器、监控视频和 GPS 等设备产生的海量数据,甚至与气象监测设备产生的天气状况等数据相结合,从中提取出我们真正需要的信息,及时而准确地推送给我们,并且这些信息不是简单地告诉我们到达目的地的几条路径或是显示各种路况信息,而是直接提供最佳的出行方式和路线,从而省却了我们在多个信息中做出选择的麻烦。 医疗 医疗健康问题是城市快节奏生活下人们普遍关注的焦点。以往,我们总是在发现自己生病时看病就医,而且到了医院还要挂号、求诊、配药,大多数情况下还需要排队等候,容易形成就医难的困境。如今,由于电子医疗记录时代的来临,电子病历正逐渐为各大医疗机构所采用。在去医院前,可以通过网上预约挂号;在就医时,仅使用一张 IC 卡就能付费;医生还可以将问诊过程中的记录,病人的化验单、拍片等诊断数据输入电脑以备随时调用。这些技术大大提高了医疗机构的工作效率,也使得病人有了良好的就医体验。然而,美国著名的医疗健康组织 Kaiser Permanente 又往前多走了一步,该组织通过将下属所有医疗机构的电子病历记录标准化,形成多方位多维度的大数据。这些需要在同一时间分析的众多因素包括病人基本资料、诊断结果、处方、医疗保险情况和付款记录等数据。将这些不同的数据综合起来,Kaiser的决策支持软件将提供给医护人员完整的病人历史,并选择最佳的医疗护理解决方案。 社会安全 每个市民的切身利益都与社会安全相关,当中的问题包括灾害天气、环境污染等城市的小毛小病,也有如火灾和犯罪等各种重大突发状况。这些层出不穷的安全问题无时无刻不在考验着城市的应急体系。幸好,我们有先进的信息技术支撑,确保当安全问题发生时,能第一时间发现,并且快速启动相应的应急预案来处理。美国的纽约市在 2003 年 3 月建立了市民求助热线 311 电话中心,至今已经接听了 1 亿多个电话,日接待量达到 5 万多个。该系统能够向市民提供 3600 多个门类的信息和解答,可以用 180种语言回答问题,其中有垃圾如何分类、下雪天学校何时停课、是否有恐怖袭击……。但该热线除了直接解决各种问题外,还有个重要的功能——为城市收集信息。每一通电话都被记录、并在地图上标记出来,以方便深入分析。其实,城市中每天所产生的数据不仅包含热线电话的记录,还包含其他与社会安全相关的数据,如社交网站上的信息、道路监控设备的信息等。城市管理者可以通过对数据的分析,察觉哪里出了什么样的问题,并安排处理它们的优先顺序;市民则能知道怎么去规避危险,在突发事件发生的情况下自己该做什么。所以,如何用好这些大数据,对城市管理者和市民来说都很重要。产业升级“助推器”,大数据作为智慧城市的“大脑”正在悄然改变着人们的日常生活。与此同时,大数据也给城市的产业发展创造了前所未有的机遇。不管是在制造业还是服务业中,大数据在信息化技术革命之时,又将再一次推动产业转型升级,为新的经济发展方式开创变革契机。 制造业 我们的制造业已在向信息化和自动化的方向发展。在产品的设计、生产和销售中,越来越多的企业使用如计算机辅助设计(CAD)、计算机辅助制造(CAM)等软件,数控机床、传感器等设备,物料需求计划(MRP)、企业资源计划(ERP)等系统。这些信息技术的应用在很大程度上提高了工作效率和产品质量,为人们带来了日益丰富的物质享受。 然而,人的需求是无限和潜在的。制造业目前所面临的挑战就是在整个产业信息化之后,如何提升获取和开拓需求的能力,从而创造出更有价值的商品。如今,企业管理信息系统中存储的信息,各种工业传感器和数控设备中产生的数据,汇集到一起形成了大数据,将以提高生产效率为目标的信息化制造业转变成了以掌握用户需求为目标的智慧化制造业。例如,日本小松公司的挖掘机安装了 GPS 定位系统,在实时监控车辆运行情况的同时,还根据挖掘机每个月的工作时间,统计全年的工作情况,由此判断下一年度的市场需求。此外,我们还可以在产业链的各个环节中汲取大数据用之不尽的动力:从产品开发、生产和销售的历史大数据中找到创新的源泉,从客户和消费者的大数据中遇见新的合作伙伴,以及从售后反馈大数据中发现额外的增值服务。大数据为制造业的创新转型——无论是精益化提升还是服务化转型,提供了新的路径和方式。 服务业 传统的服务业有着悠久的历史。当信息时代到来的时候,服务业就衍化出现了两种形态:一种是信息技术与服务业相结合的信息服务业,另一种是应用信息技术改造传统服务业而来的服务业。前者包括计算机软件服务、通信服务、信息咨询服务等,后者包括信息化改造后的商业、金融业、旅游业等。大数据恰恰就在这两者之间起到牵线搭桥的作用,一方面它使得信息服务业从提供软硬件技术服务升级到提供智慧解决方案,另一方面它将改变现有的服务业业态模式,将关注点转向数据。 信息服务业 耳熟能详的例子要数多家网络公司收集用户的网页点击行为来提供有针对性的推送服务了,但这些企业并不轻易使用自己收集到的数据。可能是出于对企业秘密的保护和对用户隐私问题的谨慎,他们没有充分利用大数据来挖掘巨大的价值。 零售业 美国的沃尔玛公司很早就开始利用日常交易数据的关联分析来赢得竞争优势。例如 2005 年卡特里娜飓风来袭之前,沃尔玛就从手电筒和电池的销售数据中分析出馅饼将在未来热销,将两者的关联归因为飓风来袭时导致停电使得方便食用的馅饼会受青睐。 金融业 银行可以从大量数据中发现信用卡欺诈和盗用,保险公司通过大数据能够找出可疑的权利要求,理财网站从统计的消费数据中来预测宏观的经济趋势。 旅游业 企业致力于旅游预订数据的处理,如微软的 Bing 搜索引擎,能够根据其存储的机票历史数据,帮助用户决定购买航班的最佳时间和最优惠价格。上述的例子有些或许还称不上大数据的应用,但对数据利用的成果已经初见端倪。可以预见,以大数据为源动力,服务业将获得更多的商业机会。 科技创新的“种子”产业转型升级依赖于科技创新,而科技创新又是一个螺旋上升的过程,这个过程萌芽于科学发现,生长于成果转化,收获于产业发展,产业发展又需要有新的科学发现来打破旧有的模式来获得重生。在这样一个往复循环的过程中,科学发现就成了科技创新的原点。一直以来,科学发现主要基于实验和理论。在古代,人们利用自然法则来观察未知的世界。到了 17 世纪,以牛顿为代表的科学家试图对新现象做出预测,并且通过实验对各种假设进行检验。而现在,随着计算机性能的不断提高,研发人员可以精确求解大规模方程组,从而探索一些无法运用实验法和理论法的领域,例如气候建模和星系形成等。可是,这些研究正在被大数据淹没,数字信息从各种各样的传感器、工具和模拟实验那里源源不断地涌来,令数据的组织能力、分析能力和储存能力捉襟见肘。因而,在数据量快速增长之时,必须重新考虑科学研究发现的一整套方法。图灵奖得主、已故科学家吉姆·格雷针对这种情况提出了科学研究的“第四范式”。 这第四种范式同样要用到性能强大的计算机,差别在于研发人员不是根据已知的规则编写程序,而是从各种各样的数据入手。他们用程序对海量数据进行挖掘,寻找隐藏在其中的关联;实际上,就是利用程序去发现未知的规律。2009 年以来,微软研究院的科学家们致力于对第四范式和大数据的研究。 有一个案例说明了他们的研究成果:在 20 世纪 80 年代,有一家医院发现收治的充血性心力衰竭病人在节假日期间会飙升,他们只是注意到这一现象却没有深入研究。20 年后,微软研究院对此现象及大量数据开发出了一套分析方法,可以相当准确地预测一名充血性心力衰竭病人在出院后的 30 天内会不会再次入院。其做法不是编一个程序对某个医生的提问进行分析,也不是对可能会有多少病人做一个总体的估计,而是来自一种“机器学习”的方法——利用程序对大数据进行分析挖掘的过程。这个大数据包括约 30 万名患者的数万个数据点。通过分析结果不同病例之间的差异,计算机能够“得知”最有可能再次住院的病人的特征。借助这个程序,医生在收治一个新病人时,把他的数据特征输进去就可以判断他“再进宫”的可能性。这样的预测工具能在改善病人健康状况的同时,还能省去一大笔医疗费用。 除“机器学习”以外,科学研究的第四范式还发展了另一种众包研究模式,使得科学发现不再是专业学者埋头于实验室的苦差事,而是全球科学家、学生和感兴趣的民众都可以参与的大众活动。谷歌公司在这个领域做了许多工作,他们开发了 Google.org——这是一个利用谷歌在信息技术处理数据方面特长建立的全球公众都能够参与的科学研究平台。从 2008 年 11 月起,Google.org 启动了名为“流感趋势”的项目,使用一种复杂的算法,对关于流感的网络搜索进行跟踪,从而对流感在人群当中传播的方式做出估计。其后,Google.org 还组织了地球引擎项目,将大量的卫星图像和数据开放给公众,让每个人都可以对气候影响下的水源变化和沙漠化进行跟踪研究。这些项目都在寻求一种“长尾效应”,用来解决过去一直无法展开研究的科学难题。 对社会科学的研究,大数据可能带来更为巨大的积极影响。由于每次观察和量度都必然会影响对象的行为,长期以来以人及其社会联系为对象的社会科学一直面临难以严密和精准的困难。 多年前超市 POS 机开始使用,就使得商场得以进行数据挖掘,从而发现隐秘的消费规律;而目前微博和手机的普及、社交网络的广泛应用使得以往几乎不可能完成的一些人群活动规律研究成为可能。例如人群在物理上如何移动?人又何以“群分”?而全球无数监视器无时无刻不在把它的所见一网打尽。一旦快速廉价的图像分析技术突破,人群的许多细微感情、动作和行为都能够被观察分析,这将是研究发现行为规律、大大提升社会管理水平的大好机会,当然也给保护隐私和个人信息安全提出巨大挑战。 尽管利用大数据的科学发现工作目前还只是一种设想,尚未出现实证的证明,但在大数据背后隐含的智慧力量是任何科学创新工具所不能比拟的,它赋予了科技发展一种全新的生命力,犹如深埋在创新土壤里的种子,等待未来的某一天结出丰硕的果实。 2. 大数据与云计算之间的关系 对此,IBM全球高级副总裁、系统与科技部(STG)总经理RodAdkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本;IBM希望通过智慧的运算,实现智慧的地球的愿景。 英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔认为,大数据本身其实是信息革命的一个新引领。在未来几年随着物联网的发展,可能会有2100亿个RFID或者集群,在我们的环境之中,如果未来的移动互联、物联网如果变成现实,我们的生活会被传感器、会被数据采集装置所拥抱,这时候数据量将更大。这些数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。 VMware全球高级副总裁范承工认为,在过去三年当中,看到大数据的发展从无到有,市场上大家说大数据的趋势,三年前可能还没有人说这个词,现在已经如火如荼。然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋势下,传统数据库对于海量数据的需求、快的需求、开发者数据多样化的需求难以满足,使各种各样的解决方案大行其道。 EMC的大数据和存储专家、EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。 对于大数据给云计算带来的影响,Teradata技术总监StephenBrobst表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。 大数据和云计算应用各不同 其实云计算与大数据的不同之处在于应用的不同,主要在两个方面: 第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。 第二,大数据和云计算的目标受众不同,云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。 根据Cisco预测,2010-2015年,全球移动数据流量将激增26倍,将达到6.3EB/月;宽带IP数据流量将达到80.5EB/月。 数据的快速增长带来了数据存储、处理、分析的巨大压力,大数据技术的引入,不但满足了系统功能和性能的要求,带来良好的可扩展性,降低了IT部署的成本,此外它还拓展了数据智能分析的应用领域。大数据技术成为当前面临快速变化、数据爆炸时代的企业提升竞争力的有力工具。 大数据:云计算的延伸 什么是大数据?根据维基百科的定义,大数据指难以用常用的软件工具在可容忍时间内抓取、管理以及处理的数据集。大数据的显着特征包括:Volume 数据体量巨大;Variety 数据类型繁多,包括结构化数据以及非结构化数据如网页、日志、视频、图片等等;Velocity要求的处理速度快。 大数据技术与云计算的发展密切相关,大数据技术是云计算技术的延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、NoSQL数据库、实时流数据处理以及智能分析技术如模式识别、自然语言理解、应用知识库等等。 对电信运营商而言,在当前智能手机、智能设备快速增长、移动互联网流量迅猛增加的情况下,大数据技术可以为运营商带来新的机会。大数据在运营商中的应用可以涵盖多个方面,包括企业管理分析如战略分析、竞争分析,运营分析如用户分析、业务分析、流量经营分析,网络管理维护优化如网络信令监测、网络运行质量分析,营销分析如精准营销、个性化推荐等。下面列举一些典型的应用场景。 3. 大数据的典型应用典型应用1:网络管理维护优化 随着运营商网络数据业务流量快速增长,数据业务在运营商收入占比重不断增加,流量与收入之间的不平衡也越发突出,智能管道、精细化运营成为运营商突破困境的共识。网络管理维护和优化成为精细化运营中的一个重要基础。 传统的信令监测尤其是数据信令监测已经面临瓶颈,以某运营商省公司为例,原始数据信令达到1TB/天,以文件形式保存。而处理之后生成的xDR(x Detail Record)数据量达到550GB/天,以数据库形式保存。通常这些数据需要保存数天或数月,传统文件系统以及传统关系数据库处理这么大的数据量显得捉襟见肘。面对信令流量快速增长、扩展困难、成本高的情况,采用海量分布式文件系统,数据存储量不受限制,可以按需扩展,同时NoSQL数据库可以有效处理达PB级的数据,实时流处理及分析平台保证实时处理海量数据。 智能分析技术在大数据的支撑下将在网络管理维护优化中发挥积极作用,网络维护的实时性将得到提升,事前预防成为可能。比如通过历史流量数据以及专家知识库结合,生成预警模型,可以有效识别异常流量,防止网络拥塞或者病毒传播等异常。 典型应用2:用户行为分析 用户行为分析在流量经营中起重要的作用。用户行为结合用户profile、产品、服务、计费、财务等信息进行综合分析,得出细粒度、精确的结果,实现用户个性化的策略控制。今后还可以对管道内容进行分析,比如图片、电影、网页等,深入理解用户的行为特征。目前流量经营分析中的瓶颈主要是数据的采集和处理。比如某运营商省公司建立了营销门户系统,该系统为适应省公司精确化管理、针对性营销要求,实现对营销活动的日报统计等支撑,打造适用于全省各级营销管理人员、一线经理及支撑人员的营销支撑门户,提供与营销活动相关的日报、月报统计,包括量收、欠费、用户发展、预警信息、机构树汇总等内容。目前每月新增数据量达到4T,传统方式分析结果需要26个小时,数据处理效率低,系统扩展困难。采用Data Cloud、并行分布式处理等大数据技术后,报表分析只需要2个小时,满足了报表对时限的要求,系统扩展性好,可用性高。 典型应用3:个性化推荐 目前在各类增值业务中,根据用户喜好推荐各类业务或应用成为运营商服务用户的一个有效方式,比如应用商店软件推荐、IPTV视频节目推荐。这一类应用需要处理的数据量大,实时性要求高,涉及到大量的非结构化数据以及智能分析,大数据技术成为系统实现中关键的技术。以IPTV节目推荐为例,不仅需要分析用户已有日志及评论、打分等数据,还需要从互联网通过网络爬虫分析获得相关视频和评论进行综合分析。可以采用的相关技术包括并行计算框架、分布式文件系统以及文本分类/聚类/关联算法、文本摘要抽取、情感分析和文本语义分析、文本挖掘等智能分析算法。 典型应用4:基于平台的数据云服务(DaaS) 当前移动互联网领域,最大的流量是视频数据。随着社会化网络、移动支付以及物联网的发展,实体经济和虚拟世界有更多的交集,数据的价值将不断提升。运营商通过分析流量的内容,比如网页的语义、图片、视频内容以及用户的观点、位置、时间关联等,将获得更多有价值的信息。比如某用户在淘宝上的购物,穿插了在其它网站上浏览(比如手机评测网站)、与朋友的聊天或者在微博上发表的言论,用户行为综合分析之后能较准确地反应个体用户的兴趣爱好、价值取向、活动范围以及社会关系等等。同时也可以对用户群进行分析,挖掘出用户群特征或者趋势分析。电信运营商基于这一切做的分析结果,可以作为数据服务提供给企业、SP/CP、研究机构等,也可以针对用户提供广告推送。当然,针对这一块的应用,用户隐私保护、法律许可等都是需要考虑的,相关的体系还有待完善。 大数据风起云涌,相关技术及应用尚处于起步阶段。电信运营商有必要在移动互联网快速发展中抓住机会,大数据应用将大有作为。 4. 目前正在研究大数据的国际公司传统巨头:IBM、亚马逊 大数据这一概念,对于国内企业来说或许还稍显陌生,目前内地从事这一领域的企业少之又少。但在国外,大数据被科技企业看作是云计算之后的另一个巨大商机,包括微软、谷歌、亚马逊和微软在内的一大批知名企业纷纷掘金这一市场。此外,很多初创企业也开始加入到大数据的淘金队伍中,这一领域已经成为实实在在的红海。 在本文中,作者整理了当今世界上在大数据领域最具话语权的企业,它们有的是计算机或者互联网领域的巨头,有的是刚刚创办不久的初创企业。但它们有一个共同点,那就是它们都看到了大数据带来的大机会于是毫不犹豫地挺进了这个领域。 虽然大数据是比云计算还要新兴的一个术语,但是通过文章里列举的一些公司可以发现,在此领域已有很多外国企业深耕已久,但是国内企业在这个领域还几乎是空白。 传统巨头: 企业名称:IBM 上线时间:2011年5月 公司地址:美国纽约州阿蒙克市 融资状况:IBM业务 业务方向:主要面向大企业等市场 IBM Logo(图片来自网络,下同) IBM这个蓝色巨人现如今虽已经没有上世纪名号响亮,但是在如今企业市场的各个领域却具有无可争议的话语权,自然它也不会放过大数据这块肥肉,现在它是全球最大的信息技术和业务解决方案公司。 2011年5月,IBM正式推出InfoSphere大数据分析平台。InfoSphere大数据分析平台包括 BigInsights和Streams,二者互补,Biglnsights基于Hadoop,对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。Streams采用内存计算方式分析实时数据。InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。 企业名称:亚马逊 上线时间:2009年 公司地址:美国华盛顿州西雅图 融资状况:亚马逊业务 业务方向:主要面向大企业等市场 亚马逊 对于云计算和大数据,亚马逊绝对具有先见之明,早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),亚马逊对Hadoop的需求和应用可谓了若指掌,无论是中小型企业还是大型组织。弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。这可是货真价实的云:面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。 除了数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。用户还可以提取结果文件,以便在数据库或者微软Excel或Tableau等工具中使用。 传统巨头:微软、谷歌 企业名称:甲骨文 上线时间:2010年 公司地址:美国加州红木城 融资状况:甲骨文业务 业务方向:主要面向大企业等市场 Oracle 甲骨文在近期发布的Oracle大数据机(Oracle Big Data Appliance)为许多企业提供了一种处理海量非结构化数据的方法。在2011年10月初召开的Oracle OpenWorld 2011大会上甲骨文正式推出了Oracle大数据机。对于那些正在寻求以更高效的方法来采集、组织和分析海量非结构化数据的企业而言,该产品具有很大的吸引力。 与甲骨文近期推出的其他一体化产品一样,Oracle大数据机集成了硬件、存储和软件,包括Apache Hadoop软件的开源代码分发、新的甲骨文NoSQL数据库和用于统计分析的R语言开源代码分发。该产品被设计为能够与甲骨文Database 11g、Oracle Exadata数据库云服务器,以及针对商业智能应用的新的Oracle Exalytics商业智能云服务器一起协同工作。 企业名称:谷歌 上线时间:2011年 公司地址:美国加州山景城 融资状况:谷歌业务 业务方向:面向各类企业市场 谷歌一直是科技行业的领军者,近年来几乎在任何一项互联网科技项目你都能看到谷歌的身影,大数据时代谷歌自然不会错过。何况如果对其拥有的海量数据进行深入挖掘,这对于提升谷歌搜索乃至所有谷歌服务的价值无可估量。 BigQuery是Google推出的一项Web服务,用来在云端处理大数据。该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。 BigQuery允许用户上传他们的超大量数据并通过其直接进行交互式分析,从而不必投资建立自己的数据中心。Google曾表示BigQuery引擎可 以快速扫描高达70TB未经压缩处理的数据,并且可马上得到分析结果。大数据在云端模型具备很多优势,BigQuery服务无需组织提供或建立数据仓库。而BigQuery在安全性和数据备份服务也相当完善。 去年底该服务只向一小部分开发者开放,现在任何人都可以注册这项服务。免费帐号可以让你每月访问高达100GB的数据,你也可以付费使用额外查询和存储空间。 企业名称:微软 上线时间:2011年 公司地址:美国华盛顿州雷德蒙市 融资状况:微软业务 业务方向:面向各类企业市场 微软研究部门从2006年起就一直致力于某种非常类似于Hadoop的项目,被称为“Dryad”。今年年初,该计划通过与SQL Server和Windows Azure云的集成实现了Dryad的产品化。虽然现在微软还没有更新,但看上去Dryad似乎将成为在SQL Server平台上影响大数据爱好者的有力竞争者。 微软进入这一市场可谓“姗姗来迟”,而且在一定程度上说,数据仓库分析和内存分析计算市场落下了后腿。2011年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),PDW使用了大规模并行处理来支持高扩展性,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。 该连接器是双向的,你可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。 微软在去年推出了基于Azure云平台的测试版Hadoop服务,今年它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本(首发日期还不知道)的一部分,现在也不清楚微软是否会与其他硬件合作伙伴或者相关大数据设备厂商合作。 传统巨头:惠普、EMC 企业名称:EMC 上线时间:不详 公司地址:美国麻州Hopkinton市 融资状况:EMC业务 业务方向:面向各类企业市场 EMC于1979年成立于美国麻州Hopkinton市,1989年开始进入企业数据储存市场。 EMC公司是全球信息存储及管理产品、服务和解决方案方面的领先公司。EMC是每一种主要计算平台的信息存储标准,而且,世界上最重要信息中的 2/3 以上都是通过EMC的解决方案管理的。 面对大数据时代,EMC公司推出用于支持大数据分析的下一代平台EMC Greenplum统一分析平台(UAP)。Greenplum UAP是一个唯一的统一数据分析平台,可扩展至其他工具,其独特之处在于,它将对大数据的认知和分享贯穿整个分析过程,实现比以往更高的商业价值。 企业名称:Teradata 上线时间:2011年 公司地址:美国俄亥俄州迈阿密斯堡 融资状况:Teradata业务 业务方向:面向各类企业市场 Teradata Teradata公司(Teradata Corporation,纽约证券交易所交易代码TDC)是全球领先的数据仓库,大数据分析和整合营销管理解决方案供应商,专注于数据库软件,数据仓库专用平台及企业分析方案。 不久前宣布推出一款集硬件、软件和服务于一体的全面产品组合Teradata分析生态系统 (Teradata Analytical Ecosystem),使不同的 Teradata 系统实现无缝协作,为企业客户提供分析和更深入的洞察力,帮助其预测商业机会和加速实现商业价值。Teradata Unity 将确保整个Teradata Analytical Ecosystem的同步和统一。为了增强在大数据分析领域的优势, Teradata还收购Aster Data公司,以增强其非传统数据分析的能力,突破了SQL分析的限制,协助企业从全部数据中获取更多价值。 企业名称:NetApp 上线时间:2011年 公司地址:美国加利福尼亚州森尼韦尔 融资状况:NetApp业务 业务方向:面向各类企业市场 Network Appliance,Inc.(NetApp,美国网域存储技术有限公司)是IT存储业界的佼佼者,自1992年创业以来,不断以创新的理念和领先的技术引领存储行业的发展。Network Appliance, Inc. (NetApp) 是向目前的数据密集型企业提供统一存储解决方案的居世界最前列的公司。 NetApp StorageGRID 是一个久经验证的对象存储软件解决方案,设计用于管理 PB 级、全球分布的存储库,这些存储库包含企业和服务提供商的图像、视频和记录。通过消除数据块和文件中数据容器的典型约束,NetApp StorageGRID 提供了强大的可扩展性。它支持单个全局命名空间内的数十亿个文件或对象和 PB 级容量。 NetApp StorageGRID 实现了智能的数据管理和安全的内容保留。它通过一个具有内置安全性的全局策略引擎来优化数据存放、元数据管理和效率,该引擎管理数据的存储、放置、保护和检索的方式。此外,使用数字指纹和加密等技术防止内容受到篡改。 NetApp StorageGRID 有助于随时随地提供数据,以便于不间断地运营。该解决方案被设计为允许灵活进行部署配置,以满足全球的多站点组织的不同需要。 企业名称:Sybase 上线时间:2011年 公司地址:美国加州Dublin市 融资状况:Sybase业务 业务方向:面向各类企业市场 Sybase Sybase公司成立于1984年11月,总部设在美国加州的Emeryville(现为美国加州的Dublin市)。作为全球最大的独立软件厂商之一,Sybase公司致力于帮助企业等各种机构进行应用、内容及数据的管理和发布。 Sybase IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库。 相比于传统的“行式存储”的关系型数据库, Sybase IQ 使用了独特的列式存储方式,在进行分析查询时,仅需读取查询所需的列,其垂直分区策略不仅能够支持大量的用户、大规模数据,还可以提交对商业信息的高速访问,其速度可达到传统的关系型数据库的百倍甚至千倍。“随着 Sybase IQ 不断地在分析应用 POC 测试中拔得头筹,有时甚至超过其他对手 100 倍之多”, Gartner 评价道,“ Sybase IQ 逐渐成为从数据集市到企业数据仓库架构最令人渴望的 DBMS (数据库管理系统)。” 自 2009 年推出以来, Sybase 陆续发布了 Sybase IQ 15.1 、 15.2 、 15.3 以至最新的 Sybase IQ 15.4 版本,每个版本都着力于增加新的核心能力以促进更深入的高级分析。Sybase IQ 15.4是面向大数据的高级分析平台,将大数据转变成可指挥每个人都行动的情报信息,从而在整个企业的用户和业务流程范围内轻松具备大数据的分析能力。 因此,有人说Sybase IQ15.4正在彻底改变“大数据分析”。 企业名称:惠普 网址:www.hp.com 上线时间:2011年 公司地址:美国加州帕罗奥多市 融资状况:惠普业务 业务方向:面向各类企业市场 大数据时代来临,老牌巨头惠普也不甘落后。不久前惠普企业服务事业部宣布推出全新服务,帮助客户更快部署惠普子公司Vertica的Vertica Analytics Platform ,从而迅速洞悉关键的业务信息,辅助决策过程。 Vertica Analytics Platform 让用户能够大规模实时分析物理、虚拟和云环境中的结构化、半结构化和非结构化数据,从而深入洞悉“大数据”。 Advanced Information Services for Vertica 帮助客户最大化实现 Vertica 分析平台性能,并构建企业分析专用环境。惠普提供从评估到实施的一系列服务,与客户共同定义多种交付方式组合,并找出匹配其现有基础设施的最佳解决方案。 Advanced Information Services for Vertica已在全球上市,将为实现“瞬捷”企业构建灵活的智能环境。 初创企业:Clustrix、Cloudera 企业名称:沃尔玛 上线时间:2011年 公司地址:本顿维尔 融资状况:沃尔玛业务 业务方向:未知 在这里看到沃尔玛的身影,可能很多人会有疑问,全球最大的传统零售业巨头沃尔玛怎么就跟大数据扯上关系了?看了下面的介绍你就会明白了。 沃尔玛是最早通过利用大数据而受益的企业之一,曾经拥有世界上最大的数据仓库系统。通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。早在2007年,沃尔玛就已建立了一个超大的数据中心,其存储能力高达4Pb以上。《经济学人》在2010年的一篇报道中指出,沃尔玛的数据量已经是美国国会图书馆的167倍。 沃尔玛实验室计划将沃尔玛的10个不同的网站整合成一个,同时将一个10个节点的Hadoop集群扩展到250个节点的Hadoop集群。目前实验室正在设计几个能将当前像Oracle、Neteeza这样的开放资源的数据库进行迁移、整合的工具。 沃尔玛曾进行了一些列的收购,包括Kosmix(沃尔玛实验室前身)、Small Society、Set Direction、OneRiot、Social Calenda、Grabble等多家中小型创业公司,这些创业公司要么精于数据挖掘和各种算法,要么在移动社交领域有其专长,从此我们就可以看出沃尔玛进军移动互联网和挖掘大数据的决心。相信在沃尔玛的带领下,传统行业也会慢慢意识到大数据的重要性,加速步入大数据时代。 初创企业: 除了这些传统的大企业已经开始进入大数据领域之外,还有不少的创业企业也瞄准了大数据带来的机会,纷纷推出自己的产品,以期抓住大数据时代的机会。 企业名称:Clustrix 创办时间:2005年 公司地址:美国加州旧金山 融资状况:1200万美元 业务方向:面向各类企业市场等 Clustrix Clustrix创立于2005年,是Y Combinator 2006年冬季班的成员。Clustrix可以为SQL数据库提供专利数据应用方法,帮助人们处理大量的数据,使SQL数据库无限扩容成为可能。最近Clustrix从Sequoia Capital、USVP和 ATA Ventures三家风险投资公司处再次获得价值675万美元的风险投资,至今已获融资1200万美元。Clustrix总部设在美国旧金山,研发中心设在西雅图。为打开欧洲市场,公司计划将总部迁至荷兰的阿姆斯特丹,并将于年底前在印度设立办公室。 企业名称:Cloudera 创办时间:2009年 公司地址:美国加州帕洛阿尔托 融资状况:4000万美元 业务方向:面向各类企业市场等 Cloudera Cloudera是一家专业从事基于Apache Hadoop的数据管理软件销售和服务的公司,总部位于加州帕洛阿尔托,2009年3月发布了第一款商业产品,当时获得由AccelPartners领投的500万美元投资。该公司于2010年6月正式推出Cloudera企业产品。 2011年11月募集到4000万美元风险投资资金,此轮融资由风险投资机构Ignition Partners的合伙人弗兰克·阿泰勒(Frank Artale)领投。Cloudera之前的投资者顶尖风投机构Accel Partners、Greylock Partners、Meritech Capital Partners 和In-Q-Tel也参与本轮投资。 除以上企业以外,包括MapR、HStreaming、Hadapt、DataStax、Datameer这些与Hadoop以及大数据相关的新公司都已经获得投资,新一轮热潮正在兴起。 看到以上这么多的国外企业已经开始走上大数据之路,我们不禁想知道国内有哪些企业在大数据方面有所建树,但遗憾的是,与国外大数据的热火朝天相比,国内企业参与这一领域的并不多。 国内企业在数据库、数据仓库、商业智能等领域基础薄弱,IT尤其是软件企业在布局大数据方面,已经远远落后于国外先进企业。对于哪些企业将来有可能成功进入大数据领域,挑起大数据利用国产化的重担,不少人表示看好百度、阿里巴巴、腾讯等国内互联网巨头,因为它们不仅具有资金、技术等方面的实力,而且一直在与数据打交道方面具有先发优势,其本身业务的发展趋势与大数据发展趋势相符。 实际上,作为中国最大的电子商务公司阿里巴巴已经在利用大数据技术提供具体服务,主要内容就是阿里信用贷款与淘宝数据魔方这两部分业务。 以阿里信用贷款为例,阿里巴巴通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。 淘宝数据魔方则是淘宝平台上的大数据应用方案。通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此作出经营决策。 除了互联网企业以外,也许还有一家不可忽略的企业极有可能在大数据领域异军突起,那就是华为。尽管华为公司在大数据领域一直保持低调状态,但仍有相当一部分中国用户期待华为产品和方案,这主要得益于多年来华为精心打造的“国产IT网络通信产品、方案领导者”的品牌形象。 近年来,尤其是进入2012年以来,大数据渐渐地开始成为一个人们耳熟能详的术语。有许多人认为2012年应该是大数据元年,更有甚者预测,下一个Facebook会诞生在大数据领域,不管这些看法有没有道理,但至少我们可以看到大数据时代的帷幕已经开启。 |