您现在的位置 >> Hadoop教程 >> Hadoop实战 >> hadoop,hive专题  
 

MySQL通过Applier,可实时复制数据到Hadoop

【作者:Hadoop实战专家】【关键词:数据 】 【点击:72659次】【2013-10-0】
1.如何将MySQL数据复制到Hadoop?试想一下,如果从服务器不再局限为一个MySQL服务器,而是其他任何数据库服务器或平台,并且复制事件要求实时进行,是否可以实现呢?如果你有一个与HDFS相关的Hive元存储,Hadoop Applier就可以实时填充Hive数据表。  

相关热门搜索:数据分析师

大数据标签:hadoop hdfs hive sqoop bigdata

问题导读
1.如何将MySQL数据复制到Hadoop?
2.Sqoop与Applier有什么缺点?

MySQL复制操作可以将数据从一个MySQL服务器(主)复制到其他的一个或多个MySQL服务器(从)。试想一下,如果从服务器不再局限为一个MySQL服务器,而是其他任何数据库服务器或平台,并且复制事件要求实时进行,是否可以实现呢?

MySQL团队最新推出的 MySQL Applier for Hadoop(以下简称Hadoop Applier)旨在解决这一问题。

1.jpg (18.25 KB, 下载次数: 1)

  

2014-4-16 13:22 上传

用途

例如,复制事件中的从服务器可能是一个数据仓库系统,如Apache Hive,它使用Hadoop分布式文件系统(HDFS)作为数据存储区。如果你有一个与HDFS相关的Hive元存储,Hadoop Applier就可以实时填充Hive数据表。数据是从MySQL中以文本文件形式导出到HDFS,然后再填充到Hive。

操作很简单,只需在Hive运行HiveQL语句'CREATE TABLE',定义表的结构与MySQL相似,然后运行Hadoop Applier即可开始实时复制数据。

优势

在Hadoop Applier之前,还没有任何工具可以执行实时传输。之前的解决方案是通过Apache Sqoop导出数据到HDFS,尽管可以批量传输,但是需要经常将结果重复导入以保持数据更新。在进行大量数据传输时,其他查询会变得很慢。且在数据库较大的情况下,如果只进行了一点更改,Sqoop可能也需要较长时间来加载。

而Hadoop Applier则会读取二进制日志,只应用MySQL服务器上发生的事件,并插入数据,不需要批量传输,操作更快,因此并不影响其他查询的执行速度。

实现

Applier使用一个由libhdfs(用于操作HDFS中文件的C库)提供的API。实时导入的过程如下图所示:

2.png (181.1 KB, 下载次数: 1)

  

2014-4-16 13:22 上传

数据库被映射作为一个单独的目录,它们的表被映射作为子目录和一个Hive数据仓库目录。插入到每个表中的数据被写入文本文件(命名如datafile1.txt),数据以逗号或其他符号分割(可通过命令行进行配置)。

3.png (160.58 KB, 下载次数: 1)

  

2014-4-16 13:22 上传

mysql-hadoop-applier-0.1.0-alpha.tar.gz (74.13 KB, 下载次数: 3)

2014-4-16 15:52 上传
点击文件名

大数据系列hadoop,hive相关文章:

最新评论
z2014-09-10 06:55:38
兔子,要怎弄啊
维京2014-09-10 02:44:49
字面上看起 肥猪流了点儿
欣子2014-09-09 08:33:42
【大数据分析平台之Teradata】来源:比特网对今天的企业来说,数据分析已经成为生死攸关的选择。我们分析一些著名的供应商,从Hadoop创业者到传统的数据库市场参与者。  Teradata实现了统一的大数据架... --发布到微刊《项目数据分析师CPDA》http://t.cn/8s7HkZa
寻找41222014-09-09 11:13:54
[图片]是这样的
Eric2014-09-09 04:54:00
啊,现在没有代码啊,纯数据库操作
小程2014-09-08 08:47:03
2011年以来英特尔推出的Apache Hadoop发行版,有三点被大家普遍推崇的优势:①针对至强和10GbE网络做出的性能优化;② 面向未来的设计,集成功能支持下一代分析、可视化和硬件方案;③ 英特尔供应商提供全面的企业级支持和服务。http://t.cn/RPp4Hx6 #英眼看IT#
佳佳艾2014-09-07 08:45:17
|
贺志明_ICT2014-09-06 11:44:48
无奈~~政治任务
泽远beta2014-09-05 06:54:01
williamalden kevinroose I don't think it's a bad idea at all to hive off $1-2B for that.
素颜@Mos2014-09-05 10:36:59
hadoop学习视频教程 深入浅出Hadoop实战开发:hadoop学习视频教程 深入浅出Hadoop实战开发hadoop学习视频教程下载:RPIgCv2 第1章节: > Hadoop背景 > HDFS设计目标 > H...文字版>> RPIgCvZ (新浪长微博>> zOXAaic)
 
  • Hadoop生态系统资料推荐