当前,新一轮科技革命迅猛发展,数据规模爆炸性增长、数据类型愈发丰富、数据应用快速深化,促使数据库产业再次进入创新周期中的混沌状态。全球范围内创新型数据库产品快速涌现,市场格局剧烈变革,我国数据库产业进入重大发展机遇期。报告显示,年,全球数据库市场规模达到亿美元,中国数据库市场规模约为亿元,占比约5.2%。预计到年,全球数据库市场规模将达到亿美元。中国数据库市场总规模将达到亿元,市场年复合增长率(CAGR)为23.4%。年中国公有云数据库市场规模为.68亿元,未来5年,公有云数据库市场年复合增长率将达到36.1%,预计到年,中国公有云数据库市场总规模将达到.31亿元。
中国信通院云计算与大数据研究所副所长魏凯
此外,技术方面,报告梳理了数据库发展三个关键阶段,探讨了未来数据库技术演进的主要方向;产业方面,报告对产业主体、研发模式、产品分布、推广策略等方面,分析我国数据库产业的主体特点、市场格局、发展态势等;应用方面,报告以金融、电信、*务、制造业和互联网为代表,研究当前应用现状、问题以及下一步应用趋势;报告还讨论了当前我国数据库行业存在的挑战,并给出相关建议。
1以下为演讲实录:大家好,我是中国信息通信研究院云计算与大数据研究所魏凯,今天很荣幸由我来为大家解读《数据库发展研究报告》。本报告是由信通院云大所数据库团队与行业专家联合编制完成,涉及数据库技术、产业、应用等多个方面,下面我将为大家解读报告内容。
企业级数据库产品诞生于上世纪60年代,六十余年发展过程中,数据库共经历前关系型、关系型和后关系型三大阶段。
前关系型阶段数据库的数据模型主要基于网状模型和层次模型,代表产品分别为IDS和IMS,该类产品在当时较好地解决了数据集中存储和共享的问题,但在数据抽象程度和独立性上存在明显不足。
关系型阶段以IBM公司研究员埃德加·考特提出关系模型概念,论述范式理论作为开启标志,期间诞生了一批以DB2、Sybase、Oracle、SQLServer、MySQL、PostgreSQL等为代表的广泛应用的关系型数据库,该阶段关系理论基础不断夯实、技术脉络逐步清晰、市场格局趋于稳定。
年前后随着大数据时代的到来,正式开启后关系型数据库阶段,该阶段由于数据规模爆炸增长、数据类型不断丰富、数据应用不断深化,技术路线呈现多样化发展,具体表现为数据模型不断拓展、分布式架构逐渐成熟。随着各行业数字化转型不断深入,5G、云计算等新兴技术快速发展,传统数据库的应用系统纷纷优化升级。全球市场格局剧烈变革,我国数据库产业进入重大发展机遇期。
后关系型数据库阶段,数据量不断爆炸式增长,数据存储结构也越来越灵活多样,日益变革的新兴业务需求催生数据库及应用系统的存在形式愈发丰富,这些变化均对数据库各类能力不断提出挑战,推动数据库技术的不断演进,总结起来体现为三个方向:
一是多模数据库实现一库多用、利用统一框架支撑混合负载处理、运用AI实现管理自治,提升易用性、降低使用成本;
二是充分利用新兴硬件、与云基础设施深度结合,增强功能、提升性能;
三是利用隐私计算技术助力安全能力提升、区块链数据库辅助数据存证溯源,提升数据可信与安全。
后关系型数据库阶段,数据结构越来越灵活多样,如表格类型的关系数据、半结构化的用户画像数据以及非结构化的图片和视频数据等。面对这些多种结构的数据,应用程序对不同数据提出了不同存储要求,数据的多样性成为数据库平台面临的一大挑战,数据库因此需要适应多类型数据管理的需求。多模数据库支持灵活的数据存储类型,将各种类型的数据进行集中存储、查询和处理,可以同时满足应用程序对于结构化、半结构化和非结构化数据的统一管理需求。
业务系统的数据处理分为联机事务处理(OLTP)与联机分析处理(OLAP)两类。企业通常维护不同数据库以便支持两类不同的任务,管理和维护成本高。因此,能够统一支持OLTP和OLAP的数据库成为众多企业的需求。产业界当前正基于创新的计算存储框架研发HTAP数据库,其能够基于统一套引擎同时支撑业务系统运行和分析决策场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。
目前HTAP大致有两种实现方式:
第一种是主备库物理隔离,主库运行OLTP负载,备库运行OLAP负载,主备之间通过重做日志进行数据同步。
第二种是采用一体化设计,通过同一套引擎实现混合负载,区分OLTP与OLAP请求所在资源组,对资源组进行逻辑隔离。
HTAP的价值在于更加简单通用,对于绝大部分中等规模的客户,数据量不会特别大,只需要一套系统即可,但对于超大型互联网企业,HTAP数据库的分析性能可能不如专用OLAP数据库或大数据平台。
目前有研究通过将传统数据库组件用AI、机器学习算法替代,来实现更高的查询和存储效率,自动化处理各种任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优。机器学习算法可以分析大量数据记录,标记异常值和异常模式,帮助企业提高安全性,防范入侵者破坏,还可以在系统运行时自动、连续、无人工干预地执行修补、调优、备份和升级操作,尽可能减少人为错误或恶意行为,确保数据库高效运行、安全无失。未来80%以上的日常运维工作有望借助AI完成。
最近十几年,新兴硬件在经历学术研究、工程化和产品化阶段发展,对数据库系统设计提供了广阔思路。期间最主要的硬件技术进步是多处理器、多核、大内存和固态硬盘,多处理器和多核为并行处理提供可能,SSD大幅提升了数据库系统的IOPS和降低延迟,大内存促进了内存数据库引擎的发展。非易失性内存(NVM)具有容量大、低延迟、字节寻址、持久化等特性,能够应用于传统数据库存储引擎各个部分,如索引、事物并发控制、日志、垃圾回收等方面;GPU适用于特定数据库操作加速,如扫描、谓词过滤、大量数据的排序、大表关联、聚集等操作。随着新型硬件成本逐渐降低,充分利用新兴硬件资源提升数据库性能、降低成本,是未来数据库发展的重要方向之一。
云计算技术的不断发展催生出将数据库部署在云上的需求,通过云服务形式提供数据库功能的云数据库应运而生。云与数据库的融合,减少了数据库参数的重复配置,具有快速部署、高扩展性、高可用性、可迁移性、易运维性和资源隔离等特点,具体有两种形态,一种是基于云资源部署的传统数据库;另一种是基于容器化、微服务、Serverless等理念设计的存算分离架构的云原生数据库。云原生数据库能够随时随地从多前端访问,提供云服务的计算节点,并且能够灵活及时调动资源进行扩缩容,助力企业降本增效。未来,数据库将深度结合云原生与分布式特点,帮助用户实现最大限度资源池化、弹性变配、超高并发等能力,更加便捷、低成本实现云上数字化转型与升级。
随着数据上云趋势显著,云数据库面临的风险相较于传统数据库更加多样化、复杂化。如何解决第三方可信问题是云数据库面临的首要安全挑战。近年来以同态加密等密码学为代表的软件解决方案和以可信执行环境(TEE)为代表的硬件方案为数据库安全设计提供许多新思路。密码学方案的核心思路是整个运算过程都是在密文状态,通过基于数学理论的算法来直接对密文数据进行检索与计算。硬件方案的核心思路是将存放于普通环境(REE)的加密数据传递给TEE侧,并在TEE侧完成数据解密和计算任务。未来,此类数据库将围绕算法安全性和性能损耗等问题,逐步突破,进而提供覆盖数据全生命周期的安全保护机制。
数据库管理员或黑客对数据库历史记录的修改是一个经常爆发的问题。区块链具有去中心化、信息不可篡改等特征,区块链数据库能够长期留存有效记录,数据库的所有历史操作均不可更改并能追溯,适用于金融机构、公安等行业的应用场景。区块链数据库由于要容忍节点拜占庭行为而不得不采用代价更高的PBFT、PoW等共识算法成为落地应用的一大挑战,此外,由于没有统一的协调者,如何保证区块链网络分片时分布式系统的安全性,高并发下的并行控制如何保证ACID也都是设计者不可忽视的问题。未来,提升区块链数据库性能将成为学术界与工业界共同探索的命题。
全球数据库产业生态成熟壮大,在发展过程中,逐渐细分出数据库产品、数据库服务和数据库支撑体系三个细分产业。据中国信通院测算,年全球数据库市场规模为亿美元,其中中国数据库市场规模为35亿美元(约合亿元人民币),占全球5.2%。预计到年,全球数据库市场规模将达到亿美元。中国的IT总支出将占全球12.3%。我们预计,中国数据库市场在全球的占比将在年接近中国IT总支出在全球的占比,中国数据库市场总规模将达到亿元,市场年复合增长率(CAGR)为23.4%。
据中国信通院统计分析,截止年5月底,我国数据库产品提供商共计80家。从企业成立时间看,我国数据库企业成立时间主要集中在-年和-年两个时间段,数量分别是12个和38个,依次占比15%和48%。总部分布情况代表企业所在城市对数据库产业的重视与发展程度。从企业总部的数量看,由于人才规模聚集效应,企业总部通常设在超一线城市,数量最多的前五名是北京、杭州、上海、成都和深圳,分别是43、9、7、3、2个,占企业总数约为54%、11%、9%、4%和3%,除此之外,济南、南京、天津、武汉、广州、贵阳、福州、合肥和乌鲁木齐等直辖市和省会城市平均孵化出1-2个数据库企业。我国数据库企业人员平均人数约为人,最高为人左右规模,最低为10人左右规模。其中21-50人左右规模企业占比最高,数量34个,比例达到43%,人数在51-人左右规模次之,数量为12个,占比15%,-人和-人规模并列第三,均为10个,分别占比13%。我国数据库企业针对数据库领域的平均专利数量(含国内外专利)为38个,最高为个左右规模,数量为0的企业个数是19个,占比24%。拥有专利数0-4个的企业占比最高为51%,专利数5-10个的企业次之,占比14%,专利数21-50个的企业数量排名第三,占比12%。国内数据库的全部企业技术专利累计千余,仍有较大发展空间。
我国数据库产品数量分布呈现以关系型为主,非关系型及混合型数据库为辅的局面。我国关系型数据库产品多数基于MySQL和PostgreSQL二次开发而来。据中国信通院统计分析,截止年6月,我国数据库产品共有款。其中关系型数据库81个,非关系型数据库有54个,占比分别是60%和40%。关系型数据库中基于开源数据库MySQL和PostgreSQL进行二次开发的个数分别为23和24个,依次占关系型数据库比例为28.40%和29.63%,总计占58.03%。此外我国非关系型数据库产品发展势头良好,逐渐受到国际认可。图数据库产品数量为13款,自研程度较高,自研产品占总数比例为69.23%。我国时序数据库、文档数据库和图数据库也不同程度出现在DB-Engines流行度排名。
据中国信通院统计分析,年,中国公有云数据库市场规模为.68亿元,未来5年,公有云数据库市场年复合增长率将达到36.1%,预计到年,中国公有云数据库市场总规模将达到.31亿元。线上市场格局巨头涌现。中国信通院调研显示,阿里云、华为云和腾讯云作为我国头部云服务商,其在云计算基础设施、应用生态、用户渠道等方面处于领先地位。年,上述三家云服务商公有云数据库总营收约占中国公有云数据库市场份额75.5%。约83%的云上客户向选择MySQL、Redis、MongoDB、InfluxDB等开源数据库。年数据库传统部署模式市场为.22亿元,随着市场倾向的变化,传统部署市场替换国外数据库空间巨大。据中国信通院大数据产品能力评测十二批结果显示,国产数据库供给能力较几年前得到大幅提升,产品功能逐渐完善,集群规模与日俱增,性能表现不断攀升,市场竞争程度较为激烈。近些年,初创企业和巨头陆续投身开源市场,开源已成为数据库产业的共识。年1月,DB-Engines