您现在的位置 >> Hadoop教程 >> Hadoop实战 >> hadoop专题  
 

Hadoop新手学习指导

【作者:Hadoop实战专家】【关键词:云计算 云计算技术 】 【点击:79154次】【2013-09-2】
对于我们新手入门学习hadoop大数据存储的朋友来说,首先了解一下云计算和云计算技术是有必要的。广义云计算指服务地交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。 hadoop部署方式为单机模式、伪分布式、完全分布式。 来自群组: Hadoop技术组  

相关热门搜索:大数据和云计算 云计算平台 hadoop开源云计算平台

大数据标签:hadoop hdfs mapreduce bigdata

对于我们新手入门学习hadoop大数据存储的朋友来说,首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的:              云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务地交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算也可作为一种商品通过互联网进行流通。
什么是云计算?
什么是云计算技术?
在世界上云计算已经大面流行,有很流行的Google Drive、SkyDrive、Dropbox、亚马逊云服务等等。在国内百度云存储、360云存储都是比较流行的。
我们就应该会想到大数据存储,目前开源市场上最流行的应该是hadoop分布式存储,已经有大部分互联网公司已经开始使用,例如百度、360、阿里巴巴,其中一部分公司已经把hadoop作为他们的核心产品例如英特尔、IBM并为部分工作提供过大数据的解决方案,大家可以了解一下英特尔在不行业提供的解决方案:

* 面向智能交通的大数据和英特尔? 智能系统解决方案
* 物联网商机和技术挑战(英特尔)
* 大数据在医疗行业的应用
* 英特尔IT开源混合云

Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现,是云计算技术中重要的组成部分,云计算的概念更广泛且偏向业务而不是必须拘泥于某项具体技术,云计算的存在只是一种新的商业计算模型和服务模式。因此,云计算才会出现“横看成岭侧成峰,远近高低各不同”,各种各样层出不穷的理解。
hadoop 大数据以后的方向:超越Hadoop的大数据未来的研究方向
所以hadoop在大数据方面以后是主流,对我们想接触大数据的朋友是有必要学习hadoop的,对于初学的朋友:
hadoop前景、毕业薪酬,你所关心的 我想这些更是大家想要关心的内容,也是初学朋友有必要的看的。

对于初学hadoop的朋友来说可能基于迫切寻找一本入门的书,我个人觉得不用于急于寻找书,先了解hadoop是否做什么、它能做什么、能带来什么 hadoop使用场景、Hadoop到底能做什么?怎么用hadoop?,当大家对这些有所了解,就会如何入手学习hadoop
接下来大家应该进行系统性的学习hadoop了,我个人建议不要盲目的去搭建hadoop环境,熟悉了解hadoop基本知识及其所需要的知识例如java基础、linux环境、linux常用命令,它相关产品及其衍生产品,他们之间是什么关系如何工作,每个产品它们的特点是什么,下面是hadoop一些基本知识:

* hadoop HDFS文件系统的特征
* Hadoop简介(1):什么是Map/Reduce
* Mapreduce 整个工作机制图
* Hadoop mapper类的阅读
* Hadoop reducer类的阅读
* Mapreduce shuffle和排序

上面这些都是hadoop核心部分,当这些有所了解后,大家基本上可以具备大家hadoop环境的条件了。

hadoop部署方式为单机模式、伪分布式、完全分布式。对单机模式大家可以不用去关心和学习,在学习中我个人建议是搭建伪分布式,完全分布式是生产环境中使用,当大家把伪分布式后,必须对完全分布式有所了解,知道是如何工作的,也可以试着搭建hadoop的完成分布式。现在hadoop已经发行了最新的2.2.x版本,但是不测试不够全面不够稳定,大家应该选择比较稳定的版本学习,因为在公司中还是会使用稳定的版本,2.2.x版本中一些处理机制和方案是值得我们学习的,需要所有了解, Hadoop 各个发布版的特性以及稳定性
下面是搭建hadoop的安装步骤。
搭建伪分布式:hadoop 伪分布式搭建        完全分布式:hadoop 三节点集群安装配置详细实例
大家安装完成后需要一些基本的练级:

* hadoop shell命令介绍

大家这些有了基础性的学习后,这时候是比较适合找本书来系统性的学习hadoop。

* Hadoop权威指南(第2版)
* hadoop相关文档下载
* about云资源汇总V1.2 在这里可以下载到大家所有需要学习的相关资料

有一点想提醒初学的朋友,在学习hadoop开发的时候不要使用hadoop eclipse插件,这样会给你带来不必要的问题,你可以在eclipse使用maven工具下载hadoop资源包,然后写好mapreduce代码打包后传上自己的服务,使用命令启动运行。
到这里大家其实已经对hadoop有了系统性的认识和学习,我想后面的学习每个人的学习方式都是不同的,大家所需要的资料问题在论坛上都可以找的到。祝大家学习hadoop愉快。

还有篇文章不得不看,从另外角度阐述该如何学习hadoop,可以查看零基础学习hadoop到上手工作线路指导

来自群组: Hadoop技术组

大数据系列hadoop相关文章:

最新评论
超云网络云技术研究中心2014-09-10 01:56:34
那怎么学习
天使2014-09-08 10:00:42
【hadoop单个数据节点的不同存储路径的存储策略源码分析】产生问题于数据集群的数节点存储磁盘大小不同,造成使用一段时间以后容量小的磁盘空间紧张。其实,早期配置了磁盘使用存储策略,就能解决该问题。为了找到准确的程序定位点,参考了以下的Hadoop设计文档。http://t.cn/Rhy2bhl
Ambition2014-09-07 09:46:48
【英特尔注资Cloudera 融合Hadoop领航大数据】 5 月 8日,由英特尔公司和Cloudera公司联合举办的主题为 “强强联手 聚焦中国 领航大数据”的合作启动仪式暨新闻发布会。双方宣布将不断加强战略合作伙伴关系,开展协作创新,进一步推动中国大数据技术和产业发展,更好的服务中国市场和用户。
Daniel2014-09-07 05:18:11
2、搭建标题中的环境都需要哪些软件?
2014-09-06 05:28:39
飞哥,这种人赶走吧
漫步海滩2014-09-06 05:29:01
“曾经使用 Mathematica 和 IDL 的他,现在的主要工具是难用的不得了的 Hadoop,Pig 和 TSV 格式的数据文件,而且每天都有各种 marketing,sales 的人给他提出各种数据分析的要求。 我忽然间发现,科学,对于消灭人类的愚昧和偏见,真是没有多大用处。科学家,其实是社会上的弱势群体。”
真诚2014-09-06 04:09:02
看需要吧
半城烟沙ガ2014-09-05 02:23:05
这和节点数有关,如果节点数大于等于4个,那么一台机器一个map,如果小于4个,则剩下的map任务会顺序执行,那个机器的map先执行完就会接着执行
王明扬2014-09-05 09:36:53
时至今日,Hadoop已成为最流行的离线数据处理平台,然而它的集群配置起来并不简单。如果你学习Hadoop不久,相信下面这45个问题会对你有所帮助。 http://t.cn/8FhpJqx
zjt2014-09-04 12:53:29
大规模分布式系统架构与设计实战"这书封面写着“这不是一本讲怎么使用Hadoop的书,而是一本讲实现Hadoop功能的书”。但实际上“实现“讲的很少,前面有一部分的架构设计上的内容,然后说”想知道为什么要三副本吗? 想知道为什么要64MB吗?去看GFS论文吧“。后面内容全部是介绍Fourinone 这个库的使
 
  • Hadoop生态系统资料推荐