层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:
数据什么是大数据数据分析与数据挖掘的区别是什么数据库什么是数据库数据库中的分布式事务理论数据仓库什么是数据仓库什么是数据集市数据库与数据仓库的区别是什么大数据平台什么是大数据平台什么是大数据开发平台数据中台什么是数据中台数据仓库与数据中台的区别与联系数据湖什么是数据湖数据仓库与数据湖有什么区别与联系希望本文对你有所帮助,烦请读者诸君分享、点赞、转发。
数据什么是大数据麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增长的时代,业务需求增长促进技术迭代,技术满足需求后又形成闭环促进业务持续增长,从而形成一个闭环。
数据分析与数据挖掘的区别是什么数据分析可以分为广义的数据分析和狭义的数据分析。广义的数据分析就包括狭义的数据分析和数据挖掘。我们在工作中经常常说的数据分析指的是狭义的数据分析。
数据分析(狭义)DataAnalysis数据挖掘DataMining定义根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。作用主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布等,这就是事先未知的,但又是非常有价值的信息。方法主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法。主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。结果数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。数据库什么是数据库数据库是按照数据结构来组织、存储和管理数据的仓库。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。
根据数据存储的方式不同,可以将数据库分为三类:分别为行存储、列存储、行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata等;行列混合存储的数据库代表产品有TiDB,ADBforMysql等。
数据库中的分布式事务理论ACID传统关系型数据库事务设计原则,以下四点必须全部满足:
原子性Atomicity:事务中操作要么都发生,要么都不发生;一致性Consistency:事务前后数据完整性保持一致;隔离性Isolation:多个用户并发事务相互隔离;持久性Durability:事务被提交后数据的改变就是永久性的。举例说明:A账号有元,B账号有元,现在A给B账户进行转账操作:
A减少元,同时B增加元,两个操作要么都成功要么都失败,满足原子性;
A减少的金额,和B增加的金额要一致,按照一致性;
假如A给B转账的同一时刻,B又给C转账,这两笔交易是相互隔离,满足隔离性;
A给B转账元,事务提交之后,在查询账号,A减少元,B增加元,满足持久性;
CAP理论0年,Berkerly大学有位EricBrewer教授提出了一个CAP理论,在2年,麻省理工学院的SethGilbert(赛斯·吉尔伯特)和NancyLynch(南希·林奇)发表了布鲁尔猜想的证明,证明了CAP理论的正确性。所谓CAP理论,是指对于一个分布式计算系统来说,不可能同时满足以下三点:
一致性(Consistency)等同于所有节点访问同一份最新的数据副本。即任何一个读操作总是能够读到之前完成的写操作的结果,也就是说,在分布式环境中,不同节点访问的数据是一致的。可用性(Availability)每次请求都能获取到非错的响应——但是不保证获取的数据为最新数据。即快速获取数据,可以在确定的时间内返回操作结果。分区容错性(Partitiontolerance)以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择。即指当出现网络分区时(系统中的一部分节点无法与其他的节点进行通信),分离的系统也能够正常运行,即可靠性。一个分布式的系统不可能同时满足一致性、可用性和分区容错性,最多同时满足两个。当处理CAP的问题时,可以有一下几个选择:
满足CA,不满足P。将所有与事务相关的内容都放在同一个机器上,这样会影响系统的可扩展性。传统的关系型数据库。如MySQL、SQLServer、PostgresSQL等都采用了此种设计原则。满足AP,不满足C。不满足一致性(C),即允许系统返回不一致的数据。其实,对于WEB2.0的网站而言,更加