您现在的位置 >> Hadoop教程 >> Hadoop实战 >> 专题  
 

大数据时代:大数据技术实施与运用大数据分析

【作者:Hadoop实战专家】【关键词:结构化数据 数据处理 数据仓库 】 【点击:3695次】【2013-04-1】
大数据时代,以Hadoop为代表的NoSQL技术,以列式数据处理为代表的MPP NewSQL技术应运而生,为半结构化数据、非结构化数据提供了技术支撑基础,以互联网企业为代表,创造了各种新的商业模式,也开启了大数据应用的时代。  

相关热门搜索:

大数据标签:hadoop hdfs yarn hbase spark bigdata

在发展历程上,大数据与云计算很类似,开始都搞不清是什么概念,但有很多人在说,难免南辕北辙。一个非常有趣现象:会有很多人说大数据不是什么,但很少有人说是什么。但这都不妨碍大数据成为产业发展趋势。

当务之急是不纠缠于概念,直接关注有哪些应用可以落地,可以采用哪些大数据技术。

技术三分天下

传统数据处理技术以数据库技术为主,主要应用在联机事物处理(OLTP)的应用场合,后来的数据仓库、数据集市都是数据库技术的发展和延伸。数据库技术已经有30年的历史,可以将其概括为一句话“一种架构支持所有应用”。数据库技术以结构化数据为主,而结构化数据也是价值密度最高的数据。而半结构化数据、非结构化数据价值密度相对比较低,如果采用传统数据库技术处理这些数据,会被认为得不偿失。

大数据时代,以Hadoop为代表的NoSQL技术,以列式数据处理为代表的MPP NewSQL技术应运而生,为半结构化数据、非结构化数据提供了技术支撑基础,以互联网企业为代表,创造了各种新的商业模式,也开启了大数据应用的时代。

在大数据时代,对于分析类应用的需求不断增加,特别对于传统行业/企业,大数据分析需求首先包括结构化数据,这已经分析了30多年,如今结构化数据分析需要与各种半结构化数据、非结构化数据分析相结合,用全数据的视野,指导行业/企业的业务应用和实践。这就导致一种架构难以完全满足大数据的需求,“多种架构支持多类应用”就成为了大数据处理应用的基本思路,出现了OldSQL、NewSQL和NoSQL三分天下的市场格局。

混搭或将不可避免

大数据应用采用多种架构支撑不可避免。据中国移动业务支撑系统部高级工程师何鸿凌介绍,中国移动就采用了MPP和Hadoop混搭架构,配合原有数据仓系统,开展大数据的应用。其中,传统DW(数据仓库)做高价值数据,也就是结构化数据的加工,MPP做长期结构化数据的存储和自助分析,Hadoop用于非结构化数据处理、挖掘和历史存储。

何鸿凌表示,MPP是将传统分布式数据库的理论运行在X86上的实践,用列存、内存和副本等进行了优化。MPP基本可以替代传统DW,但在大数据时代,还是有挑战。那就是由于它精确地进行数据分布的原因,可扩展性和高可用比较难以达到。按照CAP理论,一种系统不可能什么都追求。因此国内较大的MPP集群也就几十个节点,国际上可以看到100~200节点的集群。根据中国移动数据处理得需求,起码也需要300~400个节点。

“大数据主要是要应用,而现在很多的应用都不是由IT开发的,是自助的,这就需要MPP中要提供沙盒,让业务部门或第三方能自助地分析和开发。我们当然不希望每个沙盒都是物理的MPP集群,这样不仅安装维护复杂,而且会造成数据重复。所以我们希望的是让MPP的能力像云计算那样对外提供按需服务,实现虚拟化。”他说。

谈到Hadoop,中国移动认为Hbase和HDFS很好,但Map/Reduce使用起来需要一些技术能力,Hadoop 2.0中Map/Reduce已经不再是唯一的执行框架,而缩减为Yarn框架下的一个应用了。对于Hadooperyan,其优势在于数据处理的成本,较之数据仓库内廉价很多,但在效率上还有差距,这是其数据分布策略所造成所的,这也是为什么中国移动还要选择MPP进行混搭因。

Hadoop技术难点主要是在Map/Reduce、各个作业之间都需要落地到HDFS上,这个效率会很差,而且没有全局优化。Spark解决了这些问题,包括用内存缓存、流水线和全局优化,因此中国移动用Spark作为处理引擎。据了解,中国移动准备将长期数据放到Hadoop上做自助查询,既能缩小MPP的规模,也能降低成本,当然这样的查询效率就不如在MPP上了。

大数据应用落地情况

混搭也好,多种模式也好,运用这些框架和技术手段的大数据应用,究竟会对现有模式产生哪些影响呢?大数据应用又是怎么样落地接地气的呢?也许中国移动的大数据应用实践会给我们一些启示。

总结来看,中国移动大数据应用有三个方面:一是让中国移动现有商业模式更加有竞争力;二是发掘新的商业模式,让别的行业运转更顺畅;三是承担社会责任发挥大数据社会价值。

实际上,在大数据被热炒之前,中国移动DW/BI系统运转已经有十多年时间,主要用于客户洞察、市场营销、客户服务和运营管理四个方面。大数据应用,非结构化数据的引入,让这些应用更加深入。以客户洞察为例,多种类型的数据(如消费、通话、位置、浏览、使用)等数据,借助各种算法(如分类、聚类、标签、RFM、Pagerank),通过分析就形成了360度的客户视图,就是利用各种联系记录形成社交网络,发现客户的各种圈子,通过分析影响力,寻找关键人员,识别家庭和政企客户,用来发现重入网客户,发现关键客户的异动情况。

2013年中国移动销售了1.5亿部终端,让TD-SCDMA芯片跻身主流行列。2014年,中国移动的目标是2.3亿部,导致各个公司压力都很大。要完成这样一个目标,一般来说有几种方法,最霸道的就是贴营销成本了,可谓无往而不利。但这种霸道的做法随着中国移动利润率的下降,越来越不被采用,而大数据营销开始被倚重,方法是分析用户的终端偏好和消费能力,捉住终端机生命周期到期、合约机期满等时机,几乎不消耗营销成本就可以完成定制机销售任务。

大数据应用在发挥社会价值方面同样大有可为,如北京市旅游局所发布的景点舒适指数,卖场为零售商提供能够顾客来源、商铺、展位人流情况,以及高速公路、交通拥塞和故判断,这些都有大数据应用和分析的功劳。

大数据应用加速发展的关键因素

加速大数据应用的发展很重要的一个因素就是要转变观念。根据中国移动的经验,应该确立几个原则:一是利用大数据技术,竭尽可能收集整理数据,竭尽可能关联数据,竭尽可能保存数据,将数据视作企业核心资产。二是充分发挥大数据价值,竭尽可能使得现有商业模式更加具有竞争力;竭尽可能发掘新的商务模式,直接将数据变成价值。

大数据系列相关文章:

最新评论
我吧1232014-09-10 10:38:11
帮忙解决一下,大神们
Happy2014-09-09 11:25:26
发表了博文 《Hadoop 管理命令》 - 概述 所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。 用法:hadoop [--config http://t.cn/8s9AFDX
GoogleloveBaidu2014-09-08 09:16:22
hive: 建表时:
eltonhuang2014-09-08 05:01:21
。net感觉没落了
iamyoung0012014-09-08 12:40:44
ansible貌似比较火: http://t.cn/8svqHNd 解决的问题与puppet和salt比较相似。关于这三种差异,大家有什么经验之谈呢?感觉很多是语法糖上的差别。我更期待的是,有组织能把不同服务的安装和配置的逻辑,包成一个大家可以复用的东东。类似装mysql集群,lamp, hadoop等等
明天依旧2014-09-08 09:24:11
@巴黎卢浮宫般的低调
个性化微博推荐2014-09-07 12:26:32
你暴露了
个人听歌2014-09-07 11:15:06
hadoop迫在眉睫啊,得赶紧充能。
Tony_老七2014-09-06 08:52:03
大数据热门职业薪酬榜 Hadoop人才居首 http://t.cn/8F93ZXH
迷失的米奇2014-09-06 07:29:20
【配电所举办“大数据思维、技术及应用案例”讲座】介绍了以Hadoop、NoSQL和R语言为代表的大数据抽取、清洗、存储、挖掘分析及展现等支撑技术原理与工具。最后还介绍了大数据技术在科学研究、金融业、智能交通、人工智能的应用案例,以及大数据技术在智能电网领域的展望与挑战。RPqGVxs
 
  • Hadoop生态系统资料推荐