潍坊市论坛

注册

 

发新话题 回复该主题

关于通用数据计算模型的思考 [复制链接]

1#
白癜风暑假治疗计划 https://m-mip.39.net/disease/mip_6192223.html

数据计算模型就是指如何实现数据的存储、处理。当前,各种计算模型层出不穷,导致重复开发、维护困难等问题。

在物理学上,科学家已经统一了很多定理和公式。就像地球上所有生命体的大脑结构和原理基本类似一样,如果能够在计算机领域形成一个通用的、统一的计算模型,将会为软件系统的设计、构建、迁移、升级带来巨大的便利,并且可以进一步进行抽象和分层,建立通用的工具和方法,把人从琐碎的事务性工作中解放出来,降低软件系统构建和维护的成本,并且促进自动化和人工智能的发展。

一、数据计算模型的现状自从计算机发明以来,主要用途就是数据处理。为了提高数据处理的效率和有效性,并且满足相应数据存储需要,当前存在如下几种主要的数据计算模型:1、基于存储数据的计算模型存储数据包括结构化数据和非结构化数据。在非结构化数据领域,有Hadoop等计算框架。在结构化数据领域,数据库用于存储、检索数据,并实现部分通用的技术,如数据库提供的函数。随着技术的发展,数据库出现了多种变种,如关系数据库、网状数据库、面向对象数据库和图数据库等。非结构化数据处理主要由框架提供大量并行计算资源,算法主要由开发人员按需定制。在结构化数据领域,这些数据库实际是对实体对象的建模,或者相应的抽象。在面向数据管理的传统应用中,使用相对方便。在数据库模型基础上,可以使用不同的语言、工具构建应用,并且可以通过不同数据库的数据集成、应用的集成实现建模的扩展,解决更加复杂的问题。非结构化数据处理应用领域有限,主要是海量信息检索等,其不具有普适性。在关系数据领域,虽然定义了一些数据库模型设计范式,并且形成了一些数据库模型设计模式,但是在实际应用中,存在一些突出的问题:一是这些模型主要是给人理解的,数据之间的关系通过外键或隐含的关系来体现,机器很难理解。当前,不同公司在研发相关应用的时候,都会按照自己的理解和需要开发不同的数据模型。这些模型很难融合,往往数据模型修改会导致应用做出相应的调整,牵一发动全身。其次,这些数据库模型虽然包含了一些领域知识,但是和代码是分离的,还需要额外开发代码支持其运行。虽然现在有一些代码自动生成工具,但是到目前为止应用效果都不是很好。现在,但凡做管理信息系统的公司都有各自的数据模型,并基于这个模型开发相应的代码,形成解决某个领域问题的计算模型。这些模型复用度低,互相借鉴难度大,需要大量的手工开发,尤其是随着企业信息化的快速发展,对开发人员的数量和能力提出了较高的要求,导致整个行业整体上效率比较低,大量的人员在做一些低水平的重复性劳动。2、流式数据处理模型流式数据处理在早期就是实时数据的处理。现在又延伸到了音视频数据、准实时的业务数据流。随着近年来互联网应用的快速发展,产生了较多的实时数据处理框架、物联网框架,如spark,storm,flink等。流式数据处理针对实时数据做了优化,能够对大量实时数据进行并发处理,并对数据运行相应的模型,并且其后端可以和实时数据库存储、关系数据库事件/事务处理相结合。在保证数据处理时效性的同时,实现可靠计算。当前,在物联网/传感器实时数据处理、在线监测领域取得了较好的效果。在传统的物联网/实时数据系统中,由于其传感器类型较少,其数据处理方式和关系数据的处理存在明显的差异。但在当前建设数字孪生、建设自动化/智能化系统、实现数字化转型的背景下,实时数据的类型剧增,其与非实时数据、准实时数据之间的关系复杂。如果人为的划定实时数据、非实时数据处理,并建立两套技术模型,会增加开发的复杂度。本质上,实时数据主要是频度更高。由于当前计算能力和存储能力的提升,一般的实时数据会存储下来,也需要对历史数据进行处理,其计算方式和传统的关系型数据计算越来越接近。3、可推理知识图谱模型知识图谱的概念是Google于年正式提出,但是知识图谱的发展却可以追溯到年的语义网络。在其发展过程中,提出了3元组或n元组的模型(知识表示)。总体上,知识图谱视图将实体和其属性抽取出来,并且定义实体和属性之间的关系。知识图谱也是一种语义网络,即一个具有图结构的知识库,是一种符号计算。这些模型就体现在3元组或n元组模型上。广义上讲,知识图谱是一种特异化的图。基于知识图谱的数据存储模型,一般不需要定制开发专用的代码。知识图谱工具厂商会提供一套和相关知识图谱模型相匹配的软件工具,可以基于数据及其关系来进行知识的推理、验证。在可计算性方面,知识图谱比数据库模型更胜一筹。当前,知识图谱在机器人对话、知识推理等方面应用较为成功,国内外的公司也开始构建专业领域的知识图谱,如案件审理知识图谱。但目前的知识图谱也存在较大的局限性:首先,基于3元组或n元组的模型;其维度是固定的,抽象的比较厉害,难以描述显示世界中的各种复杂关系。其次,其侧重于机器推理,传统的企业管理信息系统都很难使用这种计算模型进行开发,限制了其应用范围。第三,知识图片要有效应用还需要进一步解决知识获取和知识解析的问题,比如语义分析。4、深度学习模型卷积神经网络是深度学习的代表算法之一。对卷积神经网络的研究始于二十世纪80至90年代,在二十一世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被应用于计算机视觉、自然语言处理等领域。基于监督学习,卷积神经网络可以自动建立起多层级网络,并且包含众多的参数。当前,深度学习在人脸识别、手写文字识别、语音识别等方面取得了较好的应用,并且应用逐步深入、范围不断扩大。但本质上讲,卷积神经网络是一种伪人工智能,类似统计学的应用,并且其计算过程是不透明的、不可推理的,人无法理解其分层及形成的参数。就人脸识别而言,被破解的新闻层出不穷。智能视频分析在工业企业实际应用中也存在瓶颈。5、其他计算模型量子计算、分子计算等其他非冯若依曼架构不在本文讨论之列。二、通用计算模型发展趋势展望人是自然界中已知的发展到最高级阶段的生物,其大脑可能是整个生命进化史上最神奇也是最复杂的产物。计算机以及任何一种计算模型,其重要的里程碑就是模仿人的智能,之后才能实现对人的超越。研究人的大脑具有重要的学术价值和现实意义。从广义上讲,正如《人工智能的未来》(杰夫·霍金斯,陕西科学计算出版社,年,ISBN:7---1/N?39)中所描述的,人脑不仅仅具有数据处理,还具有预测的能力。他的表现形式超出当前任何一种计算模型。并且从人脑结构及脑裂、听觉和视觉障碍患者大脑发育的角度分析,人的大脑皮层不同区域应该是同一种结构,即同一种计算模型。个人理解,处理在视觉、听觉等输入输出部分可能用到了类似深度学习的结构,人脑本质上更接近于知识图谱。在物理学领域,研究人员都在寻求统一的模型。几乎所有的物理学家都在把各种现象综合起来,其中最优美的理论是麦克斯韦的电磁场理论。电磁场理论是研究电磁场中各物理量之间的关系及其空间分布和时间变化的理论。库仑定律揭示了电荷间的静电作用力与它们之间的距离平方成反比。安培等人又发现电流元之间的作用力也符合平方反比关系。麦克斯韦全面地总结了电磁学研究的全部成果,建立了完整的电磁场理论体系。此外,波动方程描述了自然界中的各种的波动现象,包括横波和纵波,例如声波、光波和水波。科学家正在寻找大统一理论(grandunifiedtheories,GUTs),通过进一步研究万有引力、电磁力、强相互作用力、弱相互作用力四种作用力之间联系与统一,寻找能统一说明四种相互作用力的理论或模型。在计算机领域可能也是如此,我们需要统一的通用数据计算模型。要实现这个模型,就需要了解数据的本质,从各类开发工具、语言、算法的表象中将其本质抽取出来。比如图神经网络(GNN)是机器学习中最热门的研究方向之一。相关研究方向试图将图和神经网络结合起来,并且取得了一些成果。个人认为这是一个很好的方向,如果能实现广义图和神经网络的融合,必将实现知识图谱或关系数据库模型和神经网络的融合。三、通用计算模型评价标准个人认为,统一数据计算模型应该具备如下特征:1、具有数据库模型可高度自定义的特征,流式数据处理中数据在不同节点间迁移、汇聚的特征,也具有知识图谱可推理和透明计算的特征,也有深度学习中多层抽象关系的特征。不同特征有机融合;2、数据存储模型和处理模型相统一,或者说由数据存储模型来自动生成相应的处理模型。这种模型是非冯诺依曼的传统计算模型,数据存储和处理是一体的,而不是分离的。数据存储模型的变动会自动导致数据处理模型的变动,这样在某种程度上会减少构建代码的复杂性。在现实世界中,物体和其属性也是一体化的;3、该模型应该由更抽象的语言(比如元数据)来进行描述,并且自动生成机器可读的模型。从而在满足机器可计算性的前提下,实现人的可理解性,并进一步实现机器可自动优化;4、该模型应该是抽象的、分层和可分布部署的,并且横向上和纵向上都可以扩展。这里说的抽象不是接口的抽象,应该是基于泛型的类型系统,可以对已有的基类进行很大程度的重构。基于该模型构建系统的计算过程应该是透明的;5、该模型可以跨平台(操作系统、指令体系)、开发语言,和具体实现无关。四、通用计算模型实现步骤预测当前很多努力都可以理解为在向这个通用计算模型靠拢。研究的热点是图计算和深度学习的结合,但图计算和传统的数据设计模式、领域模型如何结合的研究还存很大的空间。预计这两个方向都会各自进展,最终会融合起来。个人理解,从成熟度的角度而言,可能会分四个步骤实现:第一步:相信在不远的将来,在传统数据库模型和知识图谱融合上会先走一步,并且会对少码编程、无码编程起到极大的推动作用;第二步:结合图计算解决深度学习透明计算。此时,可以对深度学习模型进行可理解的简化、融合;第三步:实现基于领域元数据模型的计算模型,并且可以在语义层面对元数据模型进行灵活优化,从而实现计算模型的快速演化,直至自动演化。第四步:成为类似于神经元的分布式计算模型,每个神经元可以在专有的硬件(或内核)上运行。在图计算和关系型数据库系统融合过程中,传统上从事管理信息系统的人员具有一定优势。主要是对业务领域模型的抽象和理解能力。预览时标签不可点收录于话题#个上一篇下一篇
分享 转发
TOP
发新话题 回复该主题