您现在的位置 >> Hadoop教程 >> Hadoop实战 >> 专题  
 

大数据的神话与现实

【作者:Hadoop实战专家】【关键词:云计算 数据分析 数据 淘宝 公司 】 【点击:100495次】【2013-05-3】
他们的消费价值可以用代数程序精确计算和预测出来,假如妈妈一时忘记了购买,像吃药提示一般准时的促销就启动了。 即便如此,阿里巴巴在数据分析上的能力还只能处理和利用淘宝平台上有限的数据,人才被视为实现数据智能的关键制约。 “商业的社会责任就是提高利润。”  

相关热门搜索:云计算与大数据 云计算和hadoop 大数据警务云计算

大数据标签:hadoop mapreduce bigdata

21世纪商业评论 黄晨霞 鲍勇剑 2013-06-24 09:48:51

核心提示:2012年初,一个男人冲进一家位于明尼苏达州阿波利斯市郊的塔吉特超市兴师问罪:为什么超市不停地向他的还是高中生的女儿邮寄婴儿尿布样品和配方奶粉的折扣券?“你们是在鼓励她怀孕吗?”

2012年初,一个男人冲进一家位于明尼苏达州阿波利斯市郊的塔吉特(Target)超市兴师问罪:为什么超市不停地向他的还是高中生的女儿邮寄婴儿尿布样品和配方奶粉的折扣券?“你们是在鼓励她怀孕吗?”愤怒的父亲质问超市经理。

几天过后,超市经理打电话向这位父亲致歉,这位父亲的语气变得平和起来,他反过来道歉说,他的女儿确实怀孕了,预产期在8月份。

对零售商而言,一个家庭将要孕育一个新生命,往往是一对夫妻改变消费观念的开始,也是他们生活方式发生变化的分水岭。塔吉特总部利用大数据进行相关性分析,已经为时多年。他们可以在不与准妈妈们对话的前提下,预测一位女性的“怀孕进行时”。塔吉特的数据分析团队,在查看准妈妈们的消费记录之后,找出了20多种关联物,通过这些关联物对顾客进行“怀孕趋势”预测,并寄送相应的优惠券,为消费推波助澜。

从《纽约时报》对这件事的综合报道,可以看到依靠大数据的新营销模式:从娃娃抓起,让妈妈上钩。塔吉特这样的大型连锁超市早就认识到始于婴儿用品的消费习惯,当妈妈们开始熟悉一个品牌、了解一家店面、习惯一套购物方式后,妈妈和婴儿就会成为被“友好套牢”的长期消费者。他们的消费价值可以用代数程序精确计算和预测出来,假如妈妈一时忘记了购买,像吃药提示一般准时的促销就启动了。

塔吉特不是特例。

美国一些机构和公司争先恐后地投身于大数据分析运动中。毫无疑问,大数据解决了一些难题,产生许多有益的解决方案。例如,它可以使得Google能够预测冬季流感的传播路径;可以提高人们对于曼哈顿沙井盖爆炸的预测,以避免人员伤亡;可以帮助医院更有效地监测到早产儿细微身体变化所发出的感染信号,以便医生能够及早进行治疗;可以为UPS物流车队制定最佳行车路径,令司机们在2011年少跑4848万公里,节省了300万加仑的燃料。

包括维克托.迈尔-舍恩伯格(Viktor Mayer-Sch?nberger,《大数据时代》作者)在内的许多学者,在兴奋地传播一个又一个大数据“巫师”——那些运用大数据成为传奇的公司与个人,他们正在利用大数据解决令人头疼的“古老问题”,或是发现一个又一个商业新大陆。类似IBM这样的大型公司更是不遗余力地强调:数据正在成为战略资源。一时之间,拥有并利用大数据成为商业新时尚。各公司努力或者希冀成为维克托描绘的三种大数据公司之一:拥有大数据的公司、拥有大数据技术的公司、拥有大数据思维的公司。

但是,当拉斯维加斯各大赌场也用大数据来挑选大客户、鼓励大投注、诱发大赌瘾的时候,我们应认真考虑:要掀起大数据狂欢,还是谨慎地把它装入笼子加以驯服?若无限制,在赌场之外的市场,看似无辜、无害的大数据采矿和营销不仅会入侵我们的隐私地带,而且将悄悄改写着个人与制度之间的社会信任景观。

诱惑

有关大数据的一切都指向人的远古渴望:预测和操纵未来。

王尔德(Oscar Wilde)曾经说过:我可以抵御任何力量,除了诱惑。

在诱惑面前,我们都是王尔德的同族。这正是大数据喜爱我们,而公司们喜爱大数据的原因。“买了这款巧克力的,也特别喜欢这种果酱”,“你和上面的这些成功人士都钟爱这个品牌的家具,他们中的8个人刚刚购买了正在促销的这个年份的葡萄酒”……听上去很熟悉吗?因为它们都来自“大数据学派”。这些经典营销句式、语法和逻辑结构的有用证据来自“性感的数据科学家”[哈佛商学院教授达文波特 (Tom Davenport)语]。

大数据的美妙之处远不止于电子商务网站迷人心智的产品推荐,它还能帮助球队取胜。迈克尔.刘易斯在《魔球》一书里讲述了奥克兰“运动家”棒球队的经营哲学。运动家棒球队的总经理比利.比恩,依靠电脑程序和数据模型分析比赛数据,用以选择球员,最终他带领球队在美国联盟西部赛中夺冠,并创下20场连胜纪录。

维克托曾经引用这个案例,说明专家的消亡和数据科学家的崛起。大数据的鼓吹者们认为,一个史无前例的新时代正在到来。人类可以收集、利用的数据在规模(Volumn)、类型(Variety)、速度(Velocity)上有了新的变化。

分布式计算(hadoop、MapReduce等云计算技术)、认知计算在内的计算能力的演化,使得存储和处理数据的成本大幅度下降,换言之,存储和处理海量、实时数据成为可能;另一方面,iPhone引爆了智能设备的流行,生产了大量位置信息(IBM公司软件集团信息管理软件大数据全球副总裁Robert Thomas认为,位置数据的便利可得是大数据流行的要素之一)。大量位置信息的累积,为艾伯特-拉斯洛.巴拉巴西(Albert-László Barabási)这样的研究者提供了前所未有的丰富素材,以揭开人类行为背后隐藏的模式。无尺度网络模型创建者、美国东北大学教授艾伯特-拉斯洛.巴拉巴西,借助各种模型,正在其研究中心预测人类行为。他的研究包括:在未来一段时间,你会出现在哪些城市里?

一切都指向人的远古渴望:预测和操纵未来。这一愿望可以远溯至古老的占卜和巫术。如果你能够预测、操纵客户的需求,那么300%的利润,也并非遥不可及。

即使案边没有艾伯特-拉斯洛的《爆发》、行为经济学家泰勒(Richard Thaler)的《Nudge》、麻省理工神经与心理科学家格瑞别(Ann Graybiel)“老鼠习性与控制”的报告,大数据领先企业也早已把相关心理、神经、认知习惯方面的科学发现运用到营销设计中去了。核物理不杀人,核武器杀人,被大数据研究武装起来的企业已具备了各种诱惑消费的尖端能力。

《纽约时报》的杜黑格(Charles Duhigg)发现,生产日用品的宝洁公司雇佣心理习性专家,帮助他们把一款滞销的去味产品(Febreze)变成了年销售10亿美元的畅销货。诀窍在于,用广告刺激已经脱敏的嗅觉,重新唤起人们去除异味的意识和欲望,在人们本来已经适应的气味环境中再增加一味化学品,并养成对它的偏好和依赖。从美国到中国,宝洁正在联手百度公司,以大客户的身份“支使”后者利用搜索平台上的相关数据来进行消费洞察和“挖潜”。

这种人造的消费给谁带来价值,为谁的终极利益服务?在大数据游戏中,挖掘价值和操纵诱惑之间仅隔着沙滩上的一道线。这也解释了在商业世界,大数据一夜走红背后的驱动力。

骨感

Farecast的启示在于,大数据的核心在于思维,而非数据或者技术。

当然,现实的骨感,多少可以安抚我们的忐忑。

我们采访过的本土公司,多数还在埋头奋战“小数据”。大数据技术的吆喝者,确实让更多人重新思考数据潜在的价值。从数据存储和分析技术的受追捧程度,可见大数据之风的一时盛行。

端午节前的一周,一场由IBM发起的云计算大会在上海迎来了黑压压的观众,远超出了IBM中国区云计算事业部总经理王盛航的预估。三年以前,对云计算还懵懵懂懂的中国公司,如今以极大的热情投入云计算浪潮中。极端者如苏宁电器,郑重其事地将名字更改为“苏宁云商”。云服务提供商发现,存储数据和处理数据的现实需求,不断增加。

线上零售商“1号店”三年前开始购买数据仓库,组建BI(Business Intelligence,商业智能)团队。像塔吉特、沃尔玛一样,1号店希望能发现种种有如啤酒与尿布组合的相关性,以便加快产品周转率。通过数据,1号店发现了可口可乐与奥利奥饼干之间的正相关性。

新的技术,正在帮助许多雄心勃勃的零售商实现赶超沃尔玛的梦想。1号店正在建立一套价格智能系统(PIS),这套系统能够在线实时搜索60多个网站、1700多万商品的库存信息和价格信息。1号店的创始人于刚说,他们依靠PIS进行实时的价格调整,以提升价格竞争力方面的量化指标。

类似1号店PIS的数据产品思路,脱胎于华盛顿大学人工智能项目负责人奥伦.埃齐奥尼(Oren Etzioni)教授的比价网站Netbot。奥伦还开发过一套机票价格预测系统Farecast,他建立了一个数学模型,反映票价和提前购买天数之间的关系,最初的预测只是基于41天之内的12000个价格样本。2008年,微软花费1.1亿美金收购了Farecast。截至2012年,Farecast系统利用将近10万亿条价格记录来预测美国国内航班票价,准确率高达75%。

Farecast的启示在于,大数据的核心在于思维,而非数据或者技术本身。12000个价格样本绝对不符合大数据的4V定义。但是,通过奥伦卓越的建模能力,人们可以初步窥见价格与日期之间的相关关系,随后再对系统“喂入”新的数据,不断优化模型,提高预测的准确性。

大数据处理能力没有那么神秘,至少在IBM中国研究院信息管理和医疗健康首席科学家潘越看来是如此。与大数据相关的技术,可以归纳为三类:数据获取与治理能力、数据分析能力和数据呈现能力。潘越等一批科学家认为,技术的发展很可能会使得这些能力“傻瓜化”。

至少现在看来,中国不缺数据,缺乏的还是能力,奥伦.埃齐奥尼这样的能力。这也可以解释为什么大多数公司更感兴趣的是如何处理好“数据”,不论规模大小。

车品觉是阿里巴巴集团大数据委员会负责人,他认为大数据是一种“忽悠”。数据越多、越大,数据分析越复杂,负担就越沉重。在淘宝的平台上,如何“生产”有质量的数据,如何进一步挖掘消费数据,这些话题他兴致盎然,但他并不热衷于大数据的概念、定义和社会学上的讨论。

到目前为止,阿里巴巴处理并存储了超过100PB(1个PB等于1024个TB)的数据。2013年,它在内部建立了一个虚拟组织单元,称为数据委员会,把分布在阿里巴巴集团内部25个事业部从事数据处理业务的800多位人员,集中在一起,群策群力应对数据质量、数据安全和数据运营的挑战(详见《解码阿里数据》)。

即便如此,阿里巴巴在数据分析上的能力还只能处理和利用淘宝平台上有限的数据,人才被视为实现数据智能的关键制约。在规模上比淘宝小得多的1号店,持有相同的观点,于刚抱怨建模人才“非常稀缺”。

从数据到数据智能,再到大数据智能,之间站着1000个奥伦.埃齐奥尼。

笼子

保护隐私安全,保障载体公正,这是涉及生命与存在的终极问题。

未实现不代表不会发生。

即便公司们还站在大数据时代的旧石器阶段,作为产生数据的每一个个体,我们应该想想未来的场景,毕竟游客们已经落入拉斯维加斯赌场的彀中。

去年我的生日设为1月1日,今年改到4月1日了,因为我不想让大大小小的网络公司获得真实的私密信息。然而,面对日益强大的大数据技术,消费者所做的种种信息伪装显得那么幼稚可笑。对应网络上的“我”,越来越多的人有多套数码身份,但伪信息战中的失败一方总是消费者。以社交网络“脸谱”(Facebook)和“商联”(LinkedIn)为首,大数据让个人隐私无所遁形。

其实,社会呼唤也亟需能够促进信任、提升责任的大数据。为提高公平透明度,美航剥离了萨博(Sabre)飞行信息和预订系统。如今,35万家旅行社和400家航空公司使用这个系统。2008年金融危机后,美国政府立法分离投资银行自营和代客理财业务,遏止公司滥用信息不对称的优势;在医疗行业,“姜网”(Ginger.io)结合智能手机、卫星定位、哮喘患者报告,建立了观察花粉分布、有效治疗哮喘的平台。这些正反案例都值得中国企业深思。在建立平台、运用云计算、获取和处理数据一体化模式过程中,中国企业特别需要从正反两方面认识到大数据的社会性。

研究UFO的人认为,外星人殖民地球最简单有效的方法就是发送遗传基因数据,然后就地选择载体。观点大胆了一些,但道理很实在:人的一切都能分解为数据和载体。保护隐私安全,保障载体公正,这是涉及生命与存在的终极问题。

“商业的社会责任就是提高利润。”米尔顿.弗里德曼(Milton Friedman)已经告诉我们,生命与存在的问题不能交由商业机构全权处理。与大数据盛行的北美相比,中国需要制度的笼子,严格保护隐私的法律;需要商业规范的笼子,严格内部管理流程,杜绝未经客户允许的信息营销;需要社会理念的笼子,让值得信任的企业兴盛起来;需要应用技术的笼子,像北美医疗信息软件一样,自动除去病人的姓名和身份信息,然后输入大数据库。中国还需要有更多像麻省理工教授乌尔班(Glen Urban)这样的学者,呼吁和倡导基于消费者信任的营销策略。

达文波特教授宣称,如今的数据科学家类似于上世纪八九十年代华尔街的金融数量分析师。过去30年中,华尔街的金融工程创新给世界带来了什么?回望余波未尽的2008年金融危机,他应该明白,更需要驯服的是那些掌握大数据的大企业。

大数据系列相关文章:

最新评论
慧慧2014-09-10 09:40:10
给我一下好吗
mm2014-09-09 10:02:44
#第五届中国数据库技术大会#大数据专场之Hadoop技术实战和应用
bmhacker2014-09-08 08:35:29
木水加入本群
2014-09-08 05:28:47
Hadoop MapReduce两种常见的容错场景分析 | 文将分析Hadoop MapReduce(包括MRv1和MRv2)的两种常见的容错场景,第一种是,作业的某个任务阻塞了,长时间占用资源不释放,如何处理?另外一种是,作业的Map Task全部运行完成后,在Reduce Task运 http://t.cn/RhZXAgT
MIKE老毕2014-09-07 09:40:12
更多内容:
时理和2014-09-07 12:48:48
hive的结果可以保留在hdfs上呀
I struggle2014-09-06 01:47:27
[图片]
都督2014-09-05 08:14:55
【大数据时代的技术发展和IT人的挑战】主要讨论了Hadoop等大数据技术的发展现状,其主要应用领域及其同Oracle等关系型数据库在应用方向上的差异;大家在学习HDFS和MapReduce技术时所需把握的技术要点;大数据技术对从业人员的技能要求(DevOps)及其职业发展路线。详情点击:http://t.cn/8sYxn3D
静观风雨2014-09-05 04:52:58
【EMC推出ViPR软件定义存储平台1.1版本更新】EMC利用HDFS数据服务增强ViPR的对象功能。在支持ViPR的文件平台之间部署HDFS,从而将现有存储基础架构转变为大数据存储库并将Hadoop分析功能扩展到所有ViPR管理的数据。从今天开始,您可以在非生产环境中免费使用ViPR... http://t.cn/8FiHoA0
欧阳2014-09-04 12:37:40
推荐!「为什么有些公司在机器学习业务方面倾向使用 R + Hadoop 方案?」,全文 : http://t.cn/RPyujSu @品读Pento
 
  • Hadoop生态系统资料推荐