您现在的位置 >> Hadoop教程 >> Hadoop实战 >> hadoop,mapreduce专题  
 

2.1 一个气象数据集 - 51CTO.COM

【作者:Hadoop实战专家】【关键词:数据集 数据 MapReduce 文件 】 【点击:61678次】【2013-05-0】
* 摘要:《Hadoop权威指南(中文版)》第2章MapReduce简介,本章介绍MapReduce。本节为大家介绍一个气象数据集。 29.通常情况下,我们更容易、更有效地处理数量少的大型文件,因此,数据会被预先处理而使每年记录的读数连接到一个单独的文件中。  

相关热门搜索:

大数据标签:hadoop mapreduce bigdata

2.1 一个气象数据集

http://book.51cto.com  2010-04-23 15:11  周傲英/曾大聃译  清华大学出版社  我要评论(0)

* 摘要:《Hadoop权威指南(中文版)》第2章MapReduce简介,本章介绍MapReduce。本节为大家介绍一个气象数据集。
* 标签:Hadoop  Hadoop权威指南(中文版)
*

第2章 MapReduce简介

MapReduce是一种用于数据处理的编程模型。该模型非常简单。同一个程序Hadoop可以运行用各种语言编写的MapReduce程序。在本章中,我们将看到用Java,Ruby,Python和C++这些不同语言编写的不同版本。最重要的是,MapReduce程序本质上是并行的,因此可以将大规模的数据分析交给任何一个拥有足够多机器的运营商。MapReduce的优势在于处理大型数据集,所以下面首先来看一个例子。

2.1  一个气象数据集

在我们这个例子里,要编写一个挖掘气象数据的程序。分布在全球各地的气象传感器每隔一小时便收集当地的气象数据,从而积累了大量的日志数据。它们是适合用MapReduce进行分析的最佳候选,因为它们是半结构化且面向记录的数据。

数据的格式

我们将使用National Climatic Data Center(国家气候数据中心,NCDC,网址为http://www.ncdc.noaa.gov/)提供的数据。数据是以面向行的ASCII格式存储的,每一行便是一个记录。该格式支持许多气象元素,其中许多数据是可选的或长度可变的。为简单起见,我们将重点讨论基本元素(如气温),这些数据是始终都有且有固定宽度的。

例2-1显示了一个简单的示例行,其中一些重要字段加粗显示。该行已被分成多行以显示出每个字段,在实际文件中,字段被整合成一行且没有任何分隔符。

例2-1:国家气候数据中心数据记录的格式




    1. 0057  
    
2. 332130      # USAF weather station identifier  
    
3. 99999       # WBAN weather station identifier  
    
4. 19500101    # observation date  
    
5. 0300        # observation time  
    
6. 4  
    
7. +51317      # latitude (degrees × 1000)  
    
8. +028783     # longitude (degrees × 1000)  
    
9. FM-12  
    
10. +0171       # elevation (meters)  
    
11. 99999  
    
12. V020  
    
13. 320         # wind direction (degrees)  
    
14. 1           # quality code  
    
15. N  
    
16. 0072  
    
17. 1  
    
18. 00450       # sky ceiling height (meters)  
    
19. 1           # quality code  
    
20. C  
    
21. N  
    
22. 010000      # visibility distance (meters)  
    
23. 1           # quality code  
    
24. N  
    
25. 9  
    
26. -0128       # air temperature (degrees Celsius × 10)  
    
27. 1           # quality code  
    
28. -0139       # dew point temperature (degrees Celsius × 10)  
    
29. 1           # quality code  
    
30. 10268       # atmospheric pressure (hectopascals × 10)  
    
31. 1           # quality code 



数据文件按照日期和气象站进行组织。从1901年到2001 年,每一年都有一个目录,每一个目录都包含一个打包文件,文件中的每一个气象站都带有当年的数据。例如,1990年的前面的数据项如下:




    1. % ls raw/1990 | head  
    
2. 010010-99999-1990.gz  
    
3. 010014-99999-1990.gz  
    
4. 010015-99999-1990.gz  
    
5. 010016-99999-1990.gz  
    
6. 010017-99999-1990.gz  
    
7. 010030-99999-1990.gz  
    
8. 010040-99999-1990.gz  
    
9. 010080-99999-1990.gz  
    
10. 010100-99999-1990.gz  
    
11. 010150-99999-1990.gz 



因为实际生活中有成千上万个气象台,所以整个数据集由大量较小的文件组成。通常情况下,我们更容易、更有效地处理数量少的大型文件,因此,数据会被预先处理而使每年记录的读数连接到一个单独的文件中。(具体做法请参见附录C)

大数据系列hadoop,mapreduce相关文章:

最新评论
鸿雁2014-09-10 12:08:25
以下的两个链接是HPCC System(Hadoop集群)的中文课程视频: (1) Introduction to ECL - HPCC系统ECL初级课程--中文版视频资料:http://t.cn/8F38tYM (2)HPCC系统Thor初级课程--中文版视频资料:http://t.cn/8F38tYf 已经上传到大数据厂商联盟百度云盘上,请有需要的小伙伴点击链接下载观赏学习
青橙2014-09-10 04:17:15
白面馒头不加V2014-09-09 10:40:19
免费实习都干?
拾梦2014-09-09 01:31:06
查看hadoop 2.x源码 依赖的第三方jra包 有人整理了吗
qjwnkrw2014-09-08 08:23:19
你是import 还是export 呢?
元龙-数据2014-09-07 08:06:16
#新书到货#《R语言核心技术手册(第2版)》面向统计计算与数据可视化 业界公认R语言最佳入门 覆盖领域最全实战案例最多 数据从业者案头必备工具书。内容新增了R高性能计算、基于ggplot2的数据可视化和利用Hadoop做并行运算。本书详情:http://t.cn/RPg4urU @电子工业出版社 @刘思喆
天使总微笑2014-09-06 07:42:58
巧用MapReduce HDFS,海量数据去重的五大策略 | 随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。 重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据... http://t.cn/RPvyL3H
maggie2014-09-06 06:26:24
能下我还问吗?
妆儿2014-09-05 11:57:45
论监控的重要性:flume传输出现超时,队列溢出。原来是同事跑380g的mapreduce任务。如果早看到io异常就能早发现问题……目前考虑升级万兆带宽,现在百兆……
我 敢不2014-09-05 04:08:09
【如何让Hadoop结合R语言做大数据分析? 】由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoop结合在一起,很好发挥了R语言特长。广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯。@中国云计算论坛 @专注云计算 http://t.cn/8szh2c5
 
  • Hadoop生态系统资料推荐