Hadoop是一个目前已经得到广泛应用和相对成熟的分布式架构计算平台。用户可以在Hadoop上开发和运行处理海量数据的应用程序。Hadoop是一个数据管理系统,作为数据分析的核心,汇集了结构化和非结构化的数据。
Hadoop的生态系统,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心组件构成,另外还包括Sqoop、Flume等框架。同时,Hadoop生态系统也在不断增长,新增Mahout、Ambari、Whirr、BigTop等内容,以提供更新功能。
低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统。
什么是数据分析数据分析的目标:通过数据描述目前业务运行的情况、提供下一步决策的依据、对业务发展和运营作未来的预测。
数据分析的基础:未经处理的原始数据或各种影像资料等。
数据分析的方法:加工数据、清洗数据达到目标,主要是找到合适的工具和平台。
数据分析的要素:数据、工具、平台。
数据分析的定义:即根据分析目标,找到相应数据,运用合适的工具与平台的过程。
3数据分析架构大数据体系一般分为:数据采集、数据存储(数据清洁、数据转换、数据校验和数据规约等)、数据建模(数据指标、业务宽表和业务建模等)、数据分析、数据可视化。
4技术架构4.数据采集
让数据发挥价值、以数据来驱动业务,你面临第一个问题就是大数据从那里来,巧妇难为无米之粥,你应该要知道企业的大数据在那里,应该用什么方式及时获取到。
金融行业的数据源主要来源几个地方:业务系统、前端运营的APP等平台、业务日志和互联网数据等。
关于数据采集具体内容请参考:《你的数据从哪里来?》
4.数据存储
数据存储过程中,需要在数据仓库里解决数据质量的问题,对数据进行清洗,数据清洗的目标除了解决数据质量的问题,还需要让数据更适合做下一步的数据分析和数据挖掘。
()、解决数据质量问题;
()、解决数据完整性问题;
(3)、解决数据唯一性问题;
(4)、解决数据合法性问题;
(5)、数据数据一致性问题;
关于数据质量具体内容请参考:《数据质量,你永远的痛?》
4.3数据融合
数据融合的过程包括数据检验、数据重构、数据指标建模的过程。数据集市和数据仓库都要支撑业务,从底层构建、梳理业务,把数据底层和业务结合设计各种主题宽表,需要梳理业务核心指标、分层建立数仓分层结构。
4.3.数据指标
一个优秀的数据指标体系,不仅能让你快速解决数据需求,洞察出可能会被忽略的价值数据,还能反映出你目前最需解决的业务问题。
正常的来说,金融行业的APP、