您现在的位置 >> Hadoop教程 >> Hadoop实战 >> hadoop专题  
 

Mongo-Hadoop介绍及相关代码下载

【作者:Hadoop实战专家】【关键词:MongoDB 工作流 数据集 数据 处理 】 【点击:69425次】【2013-11-0】
1.Mongo-Hadoop支持什么nosql数据库?Mongo-Hadoop先检测数据并计算数据分割,然后交给Hadoop并行处理,这样非常大的数据集就可以快速被处理。 Mongo-Hadoop还支持Hadoop streaming,这样你可以使用Java以及其他任何编程语言来编写map/reduce函数。  

相关热门搜索:

大数据标签:hadoop mapreduce hive bigdata

可以带着下面问题来阅读本文章:
1.Mongo-Hadoop支持什么nosql数据库?
2.Mongo-Hadoop支持什么开发语言?
3.Mongo-Hadoop的工作流都包含什么?

Hadoop擅长分析和处理大型数据集,而MongoDB擅长存储应用程序的大型数据集,这两者结合到一起,就诞生了Mongo-Hadoop——MongoDB主要负责存储和查询,Hadoop主要负责批处理。

项目地址:https://github.com/mongodb/mongo-hadoop

Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件,并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割,然后交给Hadoop并行处理,这样非常大的数据集就可以快速被处理。

Mongo-Hadoop支持Pig和Hive,这两个开源项目允许编写非常简单的脚本来执行非常复杂的MapReduce工作流。

Mongo-Hadoop还支持Hadoop streaming,这样你可以使用Java以及其他任何编程语言来编写map/reduce函数。目前Mongo-Hadoop支持Ruby、Node.js和Python中的streaming。

Mongo-Hadoop的工作流程如下:

* Mongo-Hadoop首先检查MongoDB Collection,并计算数据分割
* 每个分割部分被分配到Hadoop集群中的一个节点
* 同时,Hadoop节点从MongoDB(或BSON)获取数据,并进行本地处理
* Hadoop合并结果,并输出到MongoDB或BSON

------------------------------------------------------------------------------------------------------------------------------------------------

下载地址:

* core
* pig support
* hive support
* streaming

mongo-hadoop-core-1.0.0.rar (31.77 KB, 下载次数: 5)

2014-2-12 16:59 上传
点击文件名

mongo-hadoop-core-1.0.0-sources.rar (28.4 KB, 下载次数: 5)

2014-2-12 16:59 上传
点击文件名

来自群组: Hadoop技术组

大数据系列hadoop相关文章:

最新评论
进击的小飞2014-09-10 01:30:17
但是统计个数的时候有问题,应该是64个
真实的我2014-09-09 08:39:00
请问vmware最高带宽只能100M吗,hadoop集群全部装在虚拟机上,性能是否受影响?
ladygaga2014-09-09 03:30:31
都可以哦。
紫涵2014-09-08 06:32:01
虚幻2014-09-07 04:04:08
是别人用sqoop导入数据,我从hbase读
 
  • Hadoop生态系统资料推荐