您现在的位置 >> Hadoop教程 >> Hadoop实战 >> hadoop专题  
 

大数据:快速有效地检索大量数据

【作者:Hadoop实战专家】【关键词:数据 索引 】 【点击:24908次】【2013-01-0】
平行检索和MapReduce等技术,让Google等公司在大数据处理领域脱颖而出。 Dittrich和同事为了解决这个问题,开发了“Hadoop强力索引库”,缩写为HAIL(冰雹),使得数据以特殊方式存储在HDFS文件系统上,检索可以加快100倍。  

相关热门搜索:

大数据标签:hadoop hdfs mapreduce bigdata

2013-03-09

平行检索和MapReduce等技术,让Google等公司在大数据处理领域脱颖而出。不过我们使用的传统数据处理系统,在处理大数据时捉襟见肘。且看Apache协议下的开源框架Hadoop,加上德国科学家的努力,能否带来新的可能。

不只科研机构需要处理大量数据,企业也需要。传统数据库管理系统经常不能胜任,而大数据的检索缺少合适的软件。萨尔布吕肯(德国西南部边境城市)的计算机专家创造了一种方法,可以快速有效检索大量数据。

“大数据”指数量庞大的电子信息,规模大而且复杂,传统技术很难处理。欧洲核子研究组织(CERN)之类的科研机构,Google和Facebook等大企业,都会需要处理大数据来做战略决策。《纽约时报》去年的一篇文章,写到大数据分析的成功案例:美国Target(目标)公司通过分析一个女孩的消费行为,知道她怀孕了,那时她爸还不知道。

需要分析的数据,会分散放在网络上的若干服务器中,一些服务器同时收到检索词,平行检索。传统数据管理系统找不到全部实例,要么是不能处理大数据,要么是让用户很难用。因此数据分析专家喜欢Apache Hadoop框架下并使用HDFS文件系统的开源工具,这些工具不需要专业知识。“只要熟悉Java,就能做不少事”,德国萨尔州大学信息系统教授Jens Dittrich说。不过他也坦言,Hadoop处理大数据受限制,比不上专门为平行处理设计的数据系统。

Dittrich和同事为了解决这个问题,开发了“Hadoop强力索引库”,缩写为HAIL(冰雹),使得数据以特殊方式存储在HDFS文件系统上,检索可以加快100倍。研究人员使用的方法,你在电话簿里就能找到:联系人名字可以用姓氏来排列,这种排列就产生我们所说的索引。研究人员对若干服务器上的数据做索引,和电话簿索引不太一样的是,他们的索引是基于若干不同标准,单次索引,多次存储。“使用的标准越多,快速找到数据的可能性越大”Dittrich解释说,“仍然用电话簿的例子,如果你有6个电话簿,分别按名字、街道、邮编、城市、手机号排列,你就能依据多个标准检索,更快找到联系人。”除此之外,Dittrich和研究团队做索引时并不需要额外费用,他们合理安排索引过程,这样就不需要额外的计算时间和延迟,甚至储存空间都只需要很少。

研究人员将在汉诺威3月5日的德国汉诺威国际信息及通信技术博览会上展示他们的成果。

大数据系列hadoop相关文章:

最新评论
Allcan2014-09-09 11:11:58
【Hadoop集群和网络】云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心、云网络等
Sam2014-09-09 02:36:26
国内都不怎么关注技术——评论@IT168官方微博 「大数据热门职业薪酬榜 Hadoop人才居首」http://t.cn/8F9UbbD
等待与忘记2014-09-08 07:00:32
请问格式化时报这个是什么问题?
蓝若寺2014-09-07 05:51:17
#企业大数据# Hadoop本身提供了分布式系统中两个最重要的东西:分布式存储(HDFS)和分布式计算(Mapreduce)。这两者解决了处理大数据面临的计算和存储问题,但更为重要的是,为开发大数据应用开辟了道路 详情:http://t.cn/8kDBuyh
fz2014-09-07 12:02:39
实习额,你想怎样
Dreamer2014-09-05 07:47:54
请问Hadoop-Eclipse-plugin-2.5.0.jar适用于什么Hadoop版本和Eclipse版本呢?
СPrnce❤2014-09-05 07:31:52
中小企业 现在不在广州在中山 8K左右
huashao2014-09-05 02:30:09
我想在eclipse里集成hive,不知道要加那些jar
寻爱2014-09-04 08:41:07
通过@微盘 下载了@Iuranus 分享的"hadoop-2.2.0.tar.gz",推荐给大家! RPK7lT7
末班车2014-09-04 04:23:15
优酷土豆的Hadoop从2009年就开始采用了,2012年集群节点达到150个,2013年更是达到300个,每天处理数据量达到200TB。但由于Hadoop集群已经逐渐胜任不了一些应用,特别是迭代式计算方面,于是决定引入Spark/Shark内存计算框架。http://t.cn/8FSYLJc #英眼看IT#
 
  • Hadoop生态系统资料推荐