消灭“柠檬车”
美国经济学家乔治·阿克尔洛夫年发表的一篇著名的学术论文《柠檬市场:质量不确定性和市场机制》。阿克尔洛夫在这篇论文中,把二手车市场作为在买卖双方掌握的信息(数据)不对称条件下,导致二手车质量不确定性的一个经典经济学研究案例。“柠檬车”通常用来形容有人买了一辆二手车后才发现其中有缺陷,让人觉得像吃了柠檬后那种酸酸涩涩的难受的感觉。为此,阿克尔洛夫与迈克尔·斯彭斯和约瑟夫·斯蒂格利茨一起分享了年的诺贝尔经济学奖。
Carfax是一家美国中型电子商务与二手车大数据公司,其主要业务是通过互联网向美国、加拿大和欧洲个人消费者和企业提供二手车市场上轿车和轻型卡车车史报告。说得通俗点,也就是让买卖双方知道他们交易的二手车是否为“柠檬车”并以此作为交易决策依据。
计算机专家巴尼特和会计师罗伯特·克拉克于年在美国密苏里州的哥伦比亚市成立Carfax。该公司成立的初衷,即巴尼特意识到有些车主在出售汽车时恶意回拨汽车里程表。巴尼特和罗伯特·克拉克看到了这个问题的严重性及其可能产生的巨大商机,决心用计算机技术来揭穿这种欺诈并以此为契机创立了自己的公司。
到年底,这家企业已拥有多名员工,各种大数据产品和服务年产值估计达8亿美元。它拥有的车史数据达亿条,而且每天都在以百万条的速度增加、更新。这些数据涵盖全美国、加拿大和欧洲部分国家公路上行驶的轿车和轻型卡车,包括这些车辆的车主历史统计、车祸记录、是否被水淹过、是否被火烧过、是否别人偷来的车、里程表是否被人往回拨过、是否属于召回检查或问题车以及日常保养的细节等等。
如今在美国或加拿大,你买到新车后第三个月,你的汽车注册信息就会被输入这家公司的大数据储存工场里。然后你的汽车维修、保养、警察报告的车祸等相关信息就会源源不断地被这家公司收集、归类,从而形成该车的车史档案。在北美买卖二手车,无论是个人还是经销商,Carfax的车史报告是必不可少的重要参考。
◆◆◆
确认数据
无论企业或个人掌握的技术多先进、多强大,做任何项目,弄清市场需求和业务用例永远是第一步。企业要想知道汽车的里程表是否准确,逻辑上可以这样实现:
在知道了该车出厂时间、历任车主、每任车主拥有此车时的里程表具体读数、该车平常的用途(出租、商用或自驾等用以估计其年平均里程数)等条件后,通过数据整合,进而估算出该车的大致里程数。而企业要获得这些数据就必须和多个机构打交道,包括汽车制造商(拥有汽车原始身份信息即车辆识别号码)、经销商(汽车身份信息和汽车购买以及销售时间信息等)及车管所(管理车主注册数据包括汽车身份信息、注册时间、车主信息、车主易手信息)等。例如,一个私家车主,每天正常上下班就在10平方公里范围内活动,一年下来,年平均里程应该就在1万公里左右。一辆车如果被开了5年,其间没有换车主,但里程表显示只有2万公里,那么这辆车的里程表很可能就被回拨过。
以下这些简单的数据可以用来检查一辆二手车的车主历史记录:
?汽车身份证号(VIN)
?颜色
?种类
?系列
?车身类型
?厂商
?数据类型
?使用对象
?使用形式
?汽车购进日期
?汽车卖出日期
?里程表读数
?数据记录日期
?数据来源
带着这个理念和所需要的数据要求,Carfax两位创始人开始上路了。
◆◆◆
收集数据
收集和获取大数据一般3个途径,即购买、整合利用现有大数据,或利用大数据工具在(移动)互联网和其他数据源里搜索、截获所需数据,以及各种方法的混合使用。
Carfax的两位创始人带着自己的创意,信心十足地敲响了拥有汽车数据的*府服务机构—密苏里州哥伦比亚市的车管所的大门。可惜巴尼特和罗伯特的首战失败,按这个州的法律,除非有法庭介入,任何人都不能轻易获得车主的隐私信息。
巴尼特和罗伯特·克拉克没有放弃。他们打听到密苏里州当地的一些汽车经销商协会(属非营利组织)有部分这方面的数据,并对他们讲的故事感兴趣。两人随即和这些协会取得联系。由于汽车经销商协会是非营利机构,他们对这种数据要价不高。就这样,通过改变数据采购渠道及与这些汽车经销商协会的创造性合作,即以购买源数据和交换数据的方式,巴尼特建立了简单的数据库并创造出美国历史上第一个汽车史档案报告。Carfax与这些协会通过数据交换的方式,在免费分享二手车报告的同时,又通过这些协会向其会员宣传。很快,当地消费者在购买二手车时对这个报告的需求就越来越多。
由于Carfax业务量持续增加,声誉和影响逐渐传出州外,不断有外州消费者和公司联系希望他们也提供相关报告。Carfax开始考虑向全美国推广这项服务。Carfax这时采取了几个重大有效的策略,包括雇用职业律师向各州法院要求各州*府在保护车主个人隐私信息的前提下,允许其开放二手车数据;雇用职业游说经理人到法律严格的州议会,说服其通过相关法律使各地*府车管所、公路交通安全管理局、警察局和消防局开放其二手车数据。
在市场推销方面,公司成功通过“口碑推荐”的营销方式,将全美各地汽车经销商协会逐一攻破。他们以收购和数据交换的方式,拿到了这些汽车经销商协会掌握的所有二手车数据。美国加州保护消费者隐私的法律比较严,他们寻求公开汽车信息数据迟迟未果,最后只好诉诸法庭,控告加州*府阻挠数据公开,经过整整4年时间,最终于年达成一个双方都满意的解决方案。时任州长的施瓦辛格最后在法律文件上签字,他们获得梦寐以求的、除去用户隐私的汽车大数据,业务也因此在加州蓬勃展开。
◆◆◆
存储数据
从接触汽车数据开始,Carfax收集到的数据就有规则和非规则两种:
规则数据:一般从可提供规范数据的汽车经销商、保险公司、车行、车管所、警察局等处购得。这些机构有自己的数据人才和技术,可以按合同把其拥有的数据做成非常规范的、Carfax认可的格式,以便Carfax能直接导入自己的数据库中储存。
非规则数据:例如大致可以看清车牌号的汽车图片(被报失窃的汽车,被水淹过的汽车等)、保存在磁卡上的汽车记录、一大堆从事故车上拆下来的车牌照片、手写的各种汽车保修单复印件等,Carfax通常是从各种专业的连锁汽修店、汽车事故数据收集网站等地方廉价购得这些数据。
这些非常规的数据才是Carfax竞争获胜的秘密武器。因为规范的数据谁都可以轻易获取。而这些不规范的数据中往往藏有特殊的价值。企业只有花大量功夫才能把藏在这些数据里的、有特殊价值的信息挖掘出来。举个简单例子,一辆车被偷了,警察不知道,或其被盗记录还没有正式记录在案,而失主把失窃的爱车照片发布在互联网上特定的汽车论坛里了。Carfax通过扫描技术,定期到网上寻找这类信息。他们找到这类图片后,把其中的车牌号跟相关车管所的车牌号比对,从而获得这款车的身份号(VIN),再到数据库中自动比对其他信息。等到车辆所需的信息完全确认后,这款车就上了Carfax被盗车黑名单。买车的人或车行一查Carfax车史报告就知道这是赃物,不能买。他们每年还通过这种服务帮警察抓盗车贼。
Carfax通常采用以下方法来储藏这两种类数据:
?对规则数据,采用VMS这种传统的大型机服务器来储存各种各样的原始数据和报表。优点是稳定性和可靠性强,不容易被黑客攻击等。
?像其他企业一样使用关系数据库来存储规则数据。设计开发自己的Oracle数据库和数据工场及各种数据集市等。
?对不规则的数据则用各种大型磁盘、特殊软件来保存。
随着时间的推移,这些大量的非规则数据积累起来,其价值越来越重要。Carfax拥有的数据总量也从年的两亿条,突飞猛进到年的亿条。传统的关系数据库和数据工场都已经无法有效驾驭这些真正的大数据了。
经过数月的评估和争论后,到年春天,企业高层终于决定放弃原来的老数据库平台和VMS大型机,采用时下流行的、开放源代码基础上的文本数据库。所有数据逐步转入MonoDB的NoSQL数据库,同时更新50多个服务器、10几个超级硬盘和6个节点。
如今,Carfax从7.6万个数据源获得的海量二手车数据,无论格式如何,都可以先直接丢进这个新的、超大型数据库系统里。他们接着再对源数据进行清理、整合、重构、重新定义、分门别类、建立新老数据间关联关系,然后把所有大数据储存在五个出租场地、跨区域的超大型数据(存储)中心,以便进行下一步的数据分析、管理和产品设计。这五个大型数据中心里,其中两个做内部数据支持,其他三个中心则对外支持企业和个人用户市场。他们同时还额外租用了一个第三方主机托管做数据备份。这种存储结构除了大幅度提高数据存储的方便性和灵活性外,这三个中心每个承担约33%的数据承载量,可以对用户的搜寻需求提供迅速及时的反应。
◆◆◆
管理数据
储存大数据后,如何有效管理大数据是另外一个挑战。数据管理职能往往包括对所获大数据的审计、剖析、清洗、分类、更新、模式化、风险管理和用户权限管理等各项内容。
由于二手车报告上的数据来自不同的数据源,企业对其进行数据集成和数据变换是数据日常管理中至关重要的一环。在把各方收集到的源数据通过分辨、确认、清洗、集成、变换和存储进数据库以前,商务分析和管理人士需要对其进行“审计”,即确认供应商提供的数据是否与其合同承诺的相符,如源数据数目是否吻合、格式是否符合期望的标准、数据可用、不可用的比例如何,源数据与企业的商业用途是否高度相关,源数据的质量如何,是否有无法辨认的数字、文字、不完整的汽车事故和保修记录描述等。
其次是“数据剖析分析”,即对源数据进行统计分析,从中发现诸如有多少数据可以用在企业正在进行和未来规划的产品中等。
“数据清洗”工作往往由数据分析师来完成。他们要检查所有数据,看其是否符合基本格式要求,是否含有那些最重要的数据单位,如车辆识别代号(VIN),跟此汽车相关的重要事件(如重大保修,召回等)、任何事故的日期及其描述记录等。继而通过数据库程序把符合要求的、可用的数据提取出来,把可修正的数据修正好,剩余无法利用的数据可能会退回数据供应商。
数据清洗完成后,数据分析师就通过软件程序把数据输入数据库,并按“公用来源–从*府那里获得的数据”和“私有来源–从非*府渠道获得的数据”区分开来。“数据分类”的其他方面是把数据按业务归属、保密属性、可公开程度、用户支持和访问权限等分门别类,从而在需要之时便于搜索查询和跟踪其使用情况。随着企业通过开发大数据进入不同业务领域的需求日益增加,对海量数据进行快速分类和关联的任务就越来越重要。分类原则和指导方向也会随着业务的变化而变化,并由此影响未来数据库的设计和更新。
在管理海量数据时,企业不同业务部门会使用和接触相同的数据,这些数据可能会经过计算衍生出新的数据,由于每个员工来自不同的业务背景,在用自己熟悉的业务术语来诠释这些数据并进行内部沟通和交流时,为了提高效率和避免沟通中产生歧义,还需要制定企业内部统一的元数据规则和数据字典。有了这些数据管理工具,每个员工都可以很清晰地知道到哪里可以找到自己想要的数据、它们的记录如何演变、它们的专业定义如何、它们背后的计算公式是什么、衍生出的逻辑关联如何、谁有权可以更改这些数据等。
数据模式化是数据库管理工作中非常重要的步骤。在掌握了二手车的大量相关数据后,我们会对其进行分析、抽象,从中找出围绕着包括汽车身份代号(VIN)、相关核心业务(如二手车经销商、保修公司、保险公司、银行等)在内的各种信息间的关联关系,进而确定其数据库、数据工场和数据集合的架构,通过逻辑和物理建模手段最终创建和实现对应的中央控制或分布式数据储存方式。数据管理的范畴往往包括数据更新、模型再设计、结构调整、最优化、性能调试、报表生成和风险管理等职能。每天输入数据库的这些数据在经过了一系列的格式化、归类处理后,就变成了Carfax庞大资产的重要部分。
◆◆◆
分析计算数据
Carfax在面对自己拥有和管理的海量二手车数据时,如何分析并找出其中的特殊价值?
笔者当年所在的产品研发团队主要日常任务就是根据客户和企业的战略规划需求,通过数据分析和计算方法,去验证来自管理层、市场部和推销部门的一个个假设,发现藏在这些数据背后的模式、数据链关系图、未知的数据关联性等。
我们起初所有的分析都围绕一部车的历史细节,属于“向后看”式分析。后来,慢慢开始通过数据的历史沉淀,在找到相关二手车可靠性和安全性数据后,结合*府的汽车碰撞试验数据,形成了对某些车型及其系列的“安全可靠性”分析,开始朝“向前看”的预测式方向靠近,从而使买主在购买二手车时,可以在参考某类车的历史和其他综合指标后,对其未来几年的使用做最靠谱的判断,从而做出最明智的购车选择。
Carfax的数据分析师和产品团队成员往往混杂在一起,他们根据具体业务需求与市场、销售、运营部门紧密合作,这些都使得以业务变化为导向的数据分析更接近市场需求。对于同一部车不同的车史产品供应商而言,谁拥有的数据越多越全,数据分析结果越详细,谁就拥有绝对的竞争优势。在大数据产品的竞争市场里,价格战的策略派不上太大用场。用户不会为了省钱,冒险去买数据不全的产品。
笔者年进入Carfax数据研发团队时,其核心产品“车史报告”上还没有汽车保修记录这项内容。虽然企业高层早就想把这些内容加进去,但由于大部分保修记录属于半规则性数据,市场上没有一家企业能顺利处理这类数据(也就是今天意义上的大数据)。当时公司只是知道这种数据非常重要,花了大价钱购买了上亿条这类数据存起来,闲置但又占储存空间。
当时Carfax买来的这些半规则数据有几千万条,要求三个月内完成从数据分析到提取有价值数据,到完成初步分析报告的全过程。笔者跟研发团队其他成员经过详细讨论和辩论,决定先去掉与此项目业务要求不相关的数据。我用数据库编程和统计软件把各种跟汽车识别号、汽车保修记录与日期相关的关键名词/组及其描述、相关的动词等提取出来,如“润滑”“机油”“泵”“发动机”“变速器”“点火”“空气囊”“安全制动”“制动器”“转向”“活塞连杆”“燃油”“转换”“装”“卸”“拆”等。然后把它们相关的整句提取出来。这个过程结束后,就只剩一千多万条与汽车保修直接相关的有用数据了。
◆◆◆
数据产品研发
虽然大数据工具在日新月异地变化,但是驾驭数据分析和算法逻辑的能力是形成这类产品的关键。Carfax的几大核心产品中,“热卖二手车”是市场部与数据分析团队合作的一个经典。传统来说,汽车经销商只是付年费给Carfax以便使用其车史报告。为了留住客户,Carfax通过对一些企业客户历年的销售业绩、车型及其车史报告关联分析,发现很多买车人对每月的促销并不总是很在意,除非价钱与别的商家相差太大。但当经销商同时提供促销车的免费车史报告后,买车人的购车意愿就大大增强了。Carfax于是尝试性地把车史特别报告植入其线上促销广告中,结果该经销商当月的销售量大大增加。
就这样,Carfax为大批汽车经销商设计和量身定制了“热卖二手车”促销辅助产品。这款产品与汽车经销商月销售二手车捆绑促销,在帮助其快速售出当月促销产品的同时,巩固了客户忠诚度,提高了客户满意度,迫使竞争对手跟进,同时为Carfax开辟新的营利渠道。
处理海量半规则、非规则数据在年还不像今天这样有众多方便的工具可供选择,Carfax之所以能比所有对手提前两年做出产品来,全靠杰出的数据分析和算法逻辑能力作为后盾。
此后,他们还与企业客户一起开发了大数据协同解决方案,研发了一系列成功的创新产品。其中与银行和保险业合作的大数据产品特别值得一提。大多数美国人买车都要从银行贷款、买车险。对于二手车来说,贷款和保险数额取决于个人征信(大数据当下在中国的另类火爆应用,美国已非常成熟)和该车的历史记录。而Carfax作为行业领*企业,其20多年的大数据产品创新成绩是当然的合作选择。由于他们拥有全北美和欧洲发达国家的大部分二手车记录,其创新做法也非常直截了当。Carfax先为合作银行和保险公司等客户设置专属账号,再根据银行和保险公司提供的二手车样本数据,很快调出这些车的详细历史数据。
创新团队依据这些客户的众多业务原则,与客户一起决定数据的筛选,对数据分析和计算制定详细的规则,把多条规则(计算公式)植入客户对应的不同业务里(如商业银行、信用社、保险、财产担保和专业汽车贷款等),进行相关数据演算。他们最终为不同行业、不同企业定制了不同的车史报告产品,为客户在批准合理的汽车贷款、保险和担保额方面提供精准的数据支持。
Carfax的创新案例对于中国的大数据创新有很多特别的启发意义。根据Carfax的调查,当一个国家的二手车数量达到千万辆后,车史报告就开始出现市场需求了。进入年,随着*府和社会对大数据技术及其运用的广泛重视,无论今后国内是否能出现类似Carfax的产品,最关键的是——一个开放的大数据环境,对企业、*府和个人做创新都至关重要。
节选《实战大数据:DT时代智能组织工作方法》
江晓东