潍坊市论坛

首页 » 分类 » 分类 » 浅谈大数据风控系统架构
TUhjnbcbe - 2020/11/9 2:12:00
北京白癜风治疗的专科医院 http://m.39.net/pf/bdfyy/bjzkbdfyy/

前言

笔者公司的风控系统经过超过6年的发展和积累,在大数据实时计算和实时决策方面已经非常成熟,是整个业务稳定高效运行的基础。是基于大数据的一体化数据建模及智能决策平台,通过数据挖掘工具化、业务决策自动化来为多业务线提供便捷高效的数据应用平台。

本篇文章将从背景描述、风控架构变迁史、核心服务、总结四个部分对笔者公司的风控决策系统进行简述。

01

背景描述

作为一家互联网金融公司,与客户直接进行着货币的交易,通过率和坏账率是首要考虑的问题。通过率高能增加交易人数,坏账率的高低能直接影响公司的收益,两者都极为重要。然而随着互联网金融的大潮兴起,申请的人数越来越多,申请人因各种原因逾期不还的的现象多次发生,有组织、有规模的团伙欺诈行为屡见不鲜,给公司造成不可估量的损失。大数据下的互联网金融行业所面临的挑战:大数据风控系统在时代的大背景下应运而生。增加通过率,降低坏账率是风控系统创建之初的使命。金融风控也在与其博弈的过程中不断优化、强大。

02

风控架构变迁史

最初架构

在公司创建之初,为了快速支持线上业务运行,并没有采用大数据相关技术来参与到风控系统的架构中,而是采用了大家更为熟悉的web架构,随着业务量的不断增加,该系统的弊端也不断显现出来,甚至于到后期已经不能正常支撑业务的正常运行。风控1.0系统架构图:

通过风控1.0的系统架构图可以看出:

使用sqlserver存储,前期快速支持业务确实非常方便,但是到后期海量数据存储时,显得力不从心。

决策使用到的大量用户行为特征变量都是通过存储过程计算,涉及到复杂的逻辑,计算效率非常低下。

风控策略与业务强耦合在一起,经常会出现一些由于代码混乱而引起的线上故障。新参与的员工学习成本大。策略是风控的核心,必然存在风控安全的风险。特别对于金融行业,这是不可容忍的。

由于风控1.0系统存在种种弊端,已经不能正常支撑线上业务,风控系统迎来了一次完全的重构。

新系统的机构、设计复杂度、预处理能力也充分考虑了公司的业务发展预期。经过新的重构,以及后面不断的迭代更新,到目前为止,系统已经稳定支撑千万级用户流量的运行、海量数据的存储及分析。

最新架构

下面看看我们的架构实现:

上图看起来可能比较抽象,下面来看看具体的数据流转架构图:

最新风控架构采用了大数据相关技术作为数据支撑,可处理海量数据,每天风控系统收集上来的数据超过20亿条数据,其中超过万条数据需要风控实时校验风险并反馈给用户。

经过线上的多年的稳定运行,该架构已经证明能够轻松支撑亿级数据量、千万级风控决策的流量。当然,在运行期间我们对架构也不断的进行了调整优化,这里就不进行详细说明了。

从架构图中可以看出,外部海量数据最终通过Kafka异步传输到大数据集群,利用SparkStreaming进行数据清洗、变量衍生,最终存入HBase中。数据准备完成后通知规则引擎对其进行决策,决策过程中会调用PMML模型,最终输出决策结果。

所有进入系统的数据都会存入一份到HDFS中,提供给离线数仓使用,进行离线数据分析,报表统计等操作。

用户从注册登录到交易完成,整个过程风控系统都在不断的参与,数据的采集以及对用户数据的计算与风险评估一直在持续,等到用户发起交易请求时,风控数据中心已经衍生出了当前用户完整的行为、画像数据,规则引擎可以根据这些数据进行反欺诈等决策判断。

03

核心服务

一个合格的风控系统应该由以下几个部分组成:

业务系统

与用户直接交互,产生业务数据,提供决策引擎使用,再通过业务端把决策结果返回给用户。

决策应用

决策枢纽,为决策引擎提供数据支持,为数据中心提供数据的输出输入,将决策结果反馈给业务系统直面用户。

决策引擎

整个风控系统的大脑,对用户进行智能决策,将风险用户拒之门外。

风控2.0系统采用Sparklinglogic作为业务决策引擎,相对最初版本的决策引擎具有以下几个优点:

隔离业务人员和研发人员,确保风控规则的信息安全。

围绕业务人员打造规则配置平台,降低整体复杂度。

通过风控规则全生命周期管理,以数据驱动决策,提升决策质量,缩短发布周期

数据中心

对其海量数据采集,特征变量加工,提供高性能的查询接口,为决策引擎提供强有力的数据支持,让风控系统达到快速精准的决策。

风控系统快速精准的决策,离不开数据中心对用户各种维度的特征变量加工的实时处理。特征变量根据计算时机的不同可分为预计算变量和实时计算变量。

预计算变量是在数据上报时触发计算,若数据未发生变化,则变量值也不会发生变化,与当前时间无关。

预计算变量处理流程:

实时计算变量是在决策查询时触发计算,与当前时间有关,随着时间的不同,变量值也会不断的发生变化。由于实时计算变量每次查询都需要对数据进行重新整合计算,所以对查询的性能要求非常高。

实时计算变量处理流程:

04

总结

如文章开头所说,增加通过率,降低坏账率是风控系统创建之初的使命。然而再优秀的风控通过率也不会达到%,坏账率也不会达到0%,这是个与自己博弈的过程,没有最好,只有更好。我们也不会止步于眼前,从风控系统诞生之际,就在不断地进行优化、重构,让其做到更好,发挥出它应有的价值和能力。

系统发展到现在尽管一直都稳定支持着线上业务,但也有些不足或待优化的地方,这些不足之处,是我们后期重点解决的目标,也是我们前进的动力。

预览时标签不可点收录于话题#个上一篇下一篇
1
查看完整版本: 浅谈大数据风控系统架构