您现在的位置 >> Hadoop教程 >> Hadoop实战 >> hbase专题  
 

about云分析discuz论坛apache日志hadoop大数据项目:数据库设计说明书第一版

【作者:Hadoop实战专家】【关键词:统计 搜索 hbase 程序 类型 】 【点击:91396次】【2013-02-1】
9.统计微信  

相关热门搜索:

大数据标签:hadoop hbase hive bigdata

about云分析discuz论坛

apache日志hadoop大数据项目

数据库设计说明书

修改记录

版本号

更改人/发布人

审批人

更改日期

V1.0.0

About云

About云

20140-7-17

程序命名规则:

包:统一www.aboutyun.com.包名

注释中:程序开头加上个人名字

文件清洗,放入路径

/usr/local/abotuyunlog

git地址:https://code.csdn.net/bj278595437/aboutyunhadoop.git

hive表设计

表名称:LogTable

字段:

IpAddress 字符串(STRING)

IpCount  整型(INT)(去掉)

Url      字符串(STRING)

UserBrowser 字符串(STRING)

OS   字符串(STRING)

AccressTime 时间类型(TIMESTAMP)

hbase表设计

加载到hbase中

hbase两个字段即可:

表名称:

LogTable

RowKey:IpAddress+Url+随机数

一个列族

Info:

5个列:

IpAddress

IpCount

Url

UserBrowser

OS   (去掉)

AccressTime

Mysql表设计

一、统计ip

表名称

IPStatistical

字段:

IpAddress  VARCHAR

VisitNum   INT

Time       DATETIME

二、统计跳出率

表名称:

BounceRate

字段:

Url  VARCHAR

Rate  FLOAT

三、统计后台登陆ip

表名称:BackgroundIP

字段:

IpAddress   VARCHAR

VisitNum   INT

Time      DATETIME

四、统计搜索量及搜索词

表名称:SearchStatistics

字段:

IpAddress   VARCHAR

SearchWod  NVARCHAR

SearchNum  INT

Time        DATETIME

注释:SearchNum   搜索次数

五、统计模块点击量

表名称:ModuleClicks

字段:

IpAddress   VARCHAR

VisitNum    INT

Time        DATETIME

六、空间总访问量

表名称:ModuleClicks

字段:

IpAddress   VARCHAR

VisitNum    INT

Time        DATETIME

七、统计导航点击量:

表名称:NavigationStatistics

字段:

IpAddress   VARCHAR

VisitNum    INT

Type          INT

Time        DATETIME

type类型:数字与统计对相应

1.统计论坛社区

2.统计图文阅读区

3.统计导读

4.统计博客

5.统计排行榜

6.统计分享

7.统计群组

8.统计广播

9.统计微信

大数据系列hbase相关文章:

最新评论
金融大数据专家2014-09-10 09:47:37
HBase在京东的完善与创新 (分享自 @大数据资讯) http://t.cn/8FfHzAQ
枫叶轩2014-09-09 04:11:08
当然了,最好的是你这种,从大一开始,不虚度大学时光
candy2014-09-09 10:27:33
是不是不实现 MR接触,普通java代码是不走集群处理的?
苦行僧2014-09-08 01:18:19
2、硕士
Scarlett2014-09-08 02:03:32
如何在hive上关联hbase的表:http://t.cn/8kz7RK3 如何搭建新版本yarn的resource manage HA: http://t.cn/8F9HTR7 两份很不错的文档,分别来自于Horton和CDH。
简简单单2014-09-07 01:42:00
真心实意就行。
鞠璐2014-09-06 09:16:21
推荐一个我刚下载的资料:hadoop课程中所有文档和笔记 http://t.cn/RvR3ERS
心ㄟ未屬2014-09-06 06:21:01
星火英语?
丁绍真2014-09-06 06:11:50
Hadoop 2.2的name node HA做的太了,完美定义了什么是高可用,用journal做各节点间的分布式文件系统索引数据同步,做到真正完全无单点故障。今天测试一个大任务正在运行,开始异常终止name node和data node,name node只要还剩一个,data node不影响数据完整性,整个任务跑得很欢,前台完全不感知。
嘿嘿.....2014-09-05 03:16:28
@guoyJoe @Williams_BigData Hadoop、Spark、HBase与Redis的适用性讨论(二):HBase - 数据视野 - 51CTO技术博客 http://t.cn/RvolyVX
 
  • Hadoop生态系统资料推荐