如何建设高效的数据模型和体系,使数据易用,避免重复建设和数据不一致性,保证数据的规范性,如何提供高效易用的数据开发工具,如何做好数据质量保障:如何有效管理和控制日益增长的存储和计算消耗:如何保证数据服务的稳定,保证其性能:如何设计有效的数据产品高效赋能于外部客户和内部员.....这些都给大数据系统的建设提出了更多复杂的要求。
本文介绍的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。如图所示是阿里巴巴大数据系统体系架构图,从图中可以清晰地看到数据体系主要分为数据采集,数据计算,数据服务和数据应用四大层次。
阿里数据仓库的数据加工链路也是遵循业界的分层理念,包括操作数据层(OperationalDataStore,ODS)、明细数据层(DataWarehouseDetail,DWD)、汇总数据层(DataWarehouseSummary,DWS)和应用数据层(ApplicationDataStore,ADS)。通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理及数据质量处理。
Wilton,