以及后期的ETL可能会更适合 - 商讯 - 长春市隆兴伟业物流有限公司
现在的位置: 主页 > 商讯 > 文章正文
以及后期的ETL可能会更适合
作者:长春市隆兴伟业物流有限公司 来源:www.lxwywl.com 发布时间:2018-10-22 09:12:36
基于COOKIE的点击流数据仓库构建思路(一)

Connection_Type Name0 Not Specified 1 Modem 2 LAN/Wifi 3 Unknown 4 Mobile Carrier 信息汇总文件。txt格式,里面包括当天日志的所有文件名、记录数、MD5等信息。

通过上面的基本分析,我们可以发现,Adobe的数据仓库模型属于典型的数据仓库结构——围绕一个事实表,延伸到不同纬度表的星型模型。

为什么他是星型结构而不是雪花型或其他?我猜测有以下几种原因:

该数据仓库是服务于Sitecatalyst报表系统和前台的DataWarehouse系统,由于这两个系统中,很多报表中的纬度、量度都可以让用户自定义,因此需要有一个底层的BigTable来满足用户任意“拖拽”和自定义的需求。 Adobe Sitecatalyst中超过200个字段是自定义参数,具体定义需要客户根据丰富的场景自定义,在这些eVar、Event和Prop被用户自定义前,Adobe也不清楚用户会如何使用这些变量,因此也无法根据纬度和量度设计数据仓库模型结构。 由于流量数据的特殊性,站群软件,同一个cookieid在不同访问时间下,其属性特征很可能会发生改变,而纬度表的意义在于其固定对应关系,流量数据关系不像是交易数据或会员数据中具有非常稳定的对应特征,因此在流量数据中无法使用,也就没必要做过多的拆分。比如同一个cookieid上次访问的IP可能是北京,下次再回来可能变成广州;用户分辨率上次是1024*768,下次来可能是1280*800,所有的纬度属性都是可变的,更不用说事实属性。 用DataFeed做数据仓库的公司,可能都有自己的灵活需求,让用户自己根据底层大表数据来做数据仓库模型,以及后期的ETL可能会更适合。

经过以上分析,我们可以得出这样一种数据仓库模型。结构如下:

这种数据仓库结构的好处在于底层数据表结构一致,且字段完整,在做上层ETL时方便程序设计,并且业务在做海量数据抽取时减少SQL复杂程度和出错几率,便于业务数据抽取操作。当然,坏处在于该表如果数据量过大,会导致每次更新数据库压力大,数据响应及时性变差;并且由于数据冗余过多,储存效率低。

实际上,我们并不需要过于担心这种数据仓库模型的好坏,关键在于适合企业上层的数据集市、数据挖掘、EDW的整合、报表的构建就好。没有一种数据仓库模型是100%适合任何场合的,适合公司实际情况的就是最好的。

下一篇会介绍基于开源网站分析工具piwik的第二种数据仓库模型思路。

下一篇:基于COOKIE的点击流数据仓库构建思路(二)

注:相关网站建设技巧阅读请移步到建站教程频道。

推荐阅读/观看:广西网站建设 https://www.feimao666.com/diqu/guangxi/



  • 上一篇:站内搜索小说、游戏模板加入流量提升直通车
  • 下一篇:最后一页
  • 
    COPYRIGHT © 2015 长春市隆兴伟业物流有限公司 ALL RIGHTS RESERVED.
    本站所有原创信息,未经许可请勿任意转载或复制使用 网站地图 技术支持:肥猫科技
    精彩专题:网站建设
    购买本站友情链接、项目合作请联系客服QQ:2500-38-100