金融数据质量怎么保证？怎样可以做到精准营销？

互联网+ Melody · 零壹财经 2016-07-19 阅读：3081

关键词：金融 数据

聚焦到数据技术在金融领域的应用实践技术作为第一生产力，促进行业的经验和未来发展的无限潜力。

7月18日，在朗迪峰会上，宜信宜人贷首席书记科学家种骥科、夸客金融首席金融科学家陈曦博士就专题研讨会“数据与金融”发表了演讲。

种骥科就产品方面的工作做了分享，他表示在数据领域中数据质量的重要性，数据维度使用的过程分为四块：分析、预测、批量和实时。讲到怎么样用大数据帮我们做好交互、审批和运营方面的工作，在交互的过程中有两个重要的方面，一个是自动化的信用评估，二是领域是实时的用户反馈，以此来获取用户的信用数据。从运营机制角度来说，有一个方面还是挺重要的，就是有很多的细分比如高净值用户，高价值用户和高成长用户，要分得非常细。

他还总结了极速信任的三个方面：简洁交互内涵、用自动化的信用评估加实时用户反馈、严谨的审批流程和精细运营的机制。

，陈曦博士表示大数据在消费金融里面最大的应用有两方面，一方面是精准营销，一方面是风险控制。他认为精准营销比较重要的特征就是目标客群的筛选。大家普遍认为数据营销或者大数据营销基本的作用有两点：降低单位营销成本和减少客户的骚扰。但他认为，真正中后台的风控往往是更加精确的，在精准营销获取客户轮廓大致是准确的框架之下，能够获取更多的客户的行为数据也好，特征变量也好，能够解决更多的信息不对称性，从而比如风险的识别更加精确、快速7×24小时的信审决策，包括按照量化风险的风险定价策略。模型会把明显资质不行的客户筛选掉，一些资质风险非常好的客户也会直接通过。

以下为种骥科、陈曦博士的演讲实录（有删减）

种骥科：今天我主要讲一下怎么样用大数据帮我们做好交互、审批和运营方面的工作。先讲讲大数据，其实在座的做大数据从业的人已经很熟悉了，从7、8年前开始说有4个"V"。在金融领域有不同的含义和量级，量、速、类、质，在金融领域什么体现？我们自己平台上产生的数据量说实在不算特别多，但是对于30万用户产生的数据量，每一个用户还是非常深的数据。在一些申请环节已经达到了差不多一秒一个，从种类这一部分比较特殊，因为我以前是做招聘方面的信息收集。特别不容易，因为互联网领域你给它半页需要填的单子都一大堆流失量，金融领域比较传统的那款申请的流程，42项每天好几万人好几万的填。真正需要钱的时候动力还是很大的，我们可以用这些动力收集不同维度的信息，网络、设备、行为、渠道、个人信息、社交还有各种各样第三方的，像友盟+等等一类的数据提供商，非常踊跃的给我们提供数据，作为数据科学家是非常好的领域。

最后是值得大家注重一下，就是数据的质量。虽然有这么多数据来源，有很多非常高质量的数据维度，在整个人群上面覆盖率还是在10%或者30%左右。真正的这些维度怎么样能够从一个信用模型的角度来说，还是要用一些有选择性的模型才可以真正用起来缺失非常严重的数据维度。

我们要说从分析的角度来说，按批量的数据去看历史数据的话，这个是用历史数据发生了什么，以前发生了什么？以及事后分析是Hindsight过程，用历史数据做一些预测，就是传统金融行业在做模型的过程。也就是说我看看用我的历史经验，以后会发生什么，May Happen也是一个先见之明的体现。互联网给我们带来的机会是可以在真正用户与我们交互过程当中，用近期的数据比如过去5分钟或者正在申请的用户行为来帮我们分辨发生什么？这个就是一种洞察力，一种insigt。在用的过程当中，我们可以分成四大块。我一般喜欢分成四块，我们这个领域四块是蛮有重要意义的，底下有分析和预测之分，上面有批量和实时的分类。

所有东西都是右上角的最好，又可以预测，又可以实时，就是影响力，我们可以促成交易，这是一个智能的体现，是Intelligent真正设计产品怎么可以把产品设计到右上角的区域，在设计急速流程贷款流程过程当中就把产品设计到最上面一个角，用最短时间，最好的用户体验，评估对于一个借款人的信用，这个过程当中注重两点怎么样可以帮助做一个快的决策，让使用流程比较方便，这就是我们说急速信任的组成。

这个过程可以给大家演示一下交互是什么过程？在急速信用促成过程当中，开始有一个额度预估，做一些基本的信用数据的一些获取。其实就这几项，用户填了之后就可以马上得到一个预估的额度，让用户可以看看究竟值得不值得花更多的时间填更多的信息，这也是一种帮助用户尽早得到反馈的过程。当用户觉得额度差不多，可以接受的时候，我们就做进一步的身份证、其他方面、电商、手机方面信息的收集，在这个过程当中为了衡量对于这一个用户来说真正的风险是什么样的风险？这个时候收集了这些数据之后，就可以给出一个每月应还，可以给它多少的借贷期限的这些信息。

真正这个时候风险的体现，我们就可以根据风险体现进行风险定价，这之后如果用户觉得还不错，最后就收集一下真正的钱要打到哪儿，马上就可以进入下一步的流程了。这个过程当中，大家可以看到是一个比较简洁的交互，但是交互的内涵是对用户时间的一种尊重，也是对怎么样能够满足用户紧急和非常现实贷款需求的体现。

这个时候当然大家已经看到了实时用户反馈的显示，实时信用评估有什么方面？总来说就是全流程线下的借款流程，从用户获取、信用评估、交易促成、客户服务都是在线上完成了有一点可以帮助大家做更深层次的理解，就是在线下和线上做信贷服务有多少不同？这个过程当中，有两个比较重要的方面，一个是自动化的信用评估，领域是实时的用户反馈。

场景非常不同，线下一个到门市部去办，线上随时随地可以在手机上做这些事情。人群也不一样，线下有很多为资金周转奔波比较习惯去门市部办事的人群，线上很多是互联网的达人，他们用互联网上的行为比较多，通常在城市。数据获取方式非常不一样，线下一般是纸质扫描的文件，线上都是抓取或者第三方的数据端口。

从数据维度的角度来说，线下线上也有很多不同，比如线下有很多根据产品大纲收集的这些数据，线上可以根据各种各样的数据的维度可以灵活的分析，深度评估机制也都有很多不一样的地方。其中着重一点，就是信用评估的机制有很多不一样的地方。线下一般有信贷员在做面对面的评估，可是线上的机制很多用信贷工厂的模式，最大的一个挑战就是欺诈特别的厉害，因为没有面对面的场景。所以从怎么样对我们的客户负责？就是有大概这四步，怎么样可以看目标用户、人群的数据维度，怎么做这些数据的分析，怎么做实时模型反馈，怎么做资产质量的监控。

信息来源都有哪些？信息来源其实是网上、用户提供的很多信息来源，我们的角度来说，我们觉得这些信息来源都是用户自己的一种资产，在贷款的时候是用自己的历史行为，作为一个资产来换取别人的信任，给它一些贷款。

在这个过程当中，尤其是信贷体系还不是特别完善的时候，有很多时候有第一次贷款，以前没有信贷历史的这些人反而是咱们的好客户。整天忙着借钱的人不一定是非常好的用户。

这些环节有很多刚才周博士也说过的机会，这个非常重要，在很多其他的领域比如一个人开什么车真正代表能够花多少钱在那一个领域里面弥补生活中的一些需求，代表了他很多消费的理念和档次的方面。所以很多其他领域的数据，虽然不是还款意愿的代表，但是代表了一些可以传过来的信息。

这个基础上有一个非常重要的方面是数据特征的分析，我们很清晰的看到这些数据在分析的过程中，有的时候并不光是依靠一个信审团队去做，因为数据抓取和整理过程当中，有很多非常新的数据分析师，数据工程师，对这些数据有非常深度的理解。

比如京东和一些公司的合作，动不动就几千个特征，这些特征都非常有意思，但是真正对信审比较有用的特征，经常是上面5%，10%的特征，大部分对现有的人群和产品不一定有效，当然也不排除对其他人群和同样的特征会有效，这个环节可能我们做模型的时候尊重真正技术从业人员对数据的敏感度。

之后还要及时反馈，将计算结果送入规则引擎，怎么讲变量和结果提供给风险委员会做特征上线决策。每个星期恨不得有两个上线的过程，迭代速度还是很重要的。

，这些方面有很多资产质量的维度，在人工跟踪的过程当中，其实还是有很多困难的，因为咱们的维度越来越多，这些维度还是需要一个自动的环节，自动的工具去跟最的。说了这么多信审方面大数据的应用一定要说说运营方面大数据的应用。最后一个是资产质量方面

作为一个借款与理财咨询服务平台，最终目的是对接债券和基金，这些债券和基金都来自个人，是我们借款人群和出接人群，每个人员在互联网上的获客转化和最后交易都有很大的漏斗。运营角度来说

其实在这种转化过程当中，大家对互联网业务比较熟悉的可以想象，各种各样以前互联网用大数据的方法转化的优化流程，都用得上。而且这些不光自己的数据，第三方的数据都非常有用。

我讲一个点，运营的机制在出借人群角度来说，其实很重要的是我们需要根据不同的业务，给用户分几个类别，我们的借款用户分了萌芽期，成长期，成熟期，衰退期和流失期几个部分。20%的用户创造了80%的出借额，这个过程当中有各种各样的算法，我们可以用大数据的方法做出借转化，二次转化提高投资金额，等这些方面的工具。

但是从运营机制角度来说，有一个方面还是挺重要的，就是有很多的细分比如高净值用户，高价值用户和高成长用户，要分得非常细。有的高净值用户一投投好几十万，好几百万，可能不投几次。高价值用户一点点投投几十次也到了几十万的额度，高成长用户早期注册就砸好几十万，不是一开始一百，二百，一千两千开始投，虽然没有很多的出借行为但是非常有潜力，非常相信我们。

这些我们运营的时候用大数据方法把顾客从成长期推到成熟期，衰退期到返回到成长期的过程。运营机制很多建立在数据质量的保证上面，其实刚才说了第四个V，就是数据质量怎么保证。在大数据的方法有很多可能在初级角度看看数据有没有缺失和偏移，很大一方面我们有很多数据是抓取的数据，这些抓取的数据有时候会因为各种各样的原因，抓取的来源改版了，抓取过程有一些网络不稳定等情况，都需要看我们的人群，抓取用户具体的数据，有没有和以前历史数据的偏移，这些便宜的过程当中，不能简简单单的用一些数去做。

而且这些一旦有一些偏移，而没有及时改正的话，直接就影响了批贷率，会对运营决策造成很大的经济损失。运营过程当中我们有保证数据质量的过程，从监控到告警到定位到修复到预防，每个环境里面有很多用大数据可以帮助我们做的事情，不过最主要的还是人和组织，大家看到了虽然做大数据的事情，但是大数据和算法只能帮助我们到一定程度，最终的很多责任还是要到人的。

最后讲一下。总结一下极速信任三个方面：简洁交互内涵，用自动化的信用评估加实时用户反馈，严谨的审批流程和精细运营的机制。最后留一句话，刚才提到大数据的用法四个模块，整个宜人贷加了一个词"影响力是Make greatenss happen"就是我们让精彩发生的口号来源，谢谢大家。怎么用大数据做审批、交互、运营，真正做的过程当中有很多基础信息

。：陈曦今天主要给大家带来更加接运营一层大数据的应用大数据在消费金融里面最大的应用是两块，一块是精准营销，一块是风险控制。在很多传统概念当中，认为在运营上面精准营销和风险控制往往是相互矛盾的一块。做业务的和做后台风控的甚至有时候是水火不容打来打去。实践当中当大数据可以应用到很多环节当中，很多事情是可以串起来的，我把精准营销特地加了个人认为比较重要的特征就是目标客群的筛选。

在传统金融领域当中，大家认为数据营销或者大数据营销基本的作用就是下面两点：降低单位营销成本和减少客户的骚扰。但是其实不知道大家有没有想过，当你降低单位营销成本和减少客户骚扰的同时，其实在做一件什么事情？就是在捕获你最需要的目标客群，但是为什么不把目标客群当中把风险比较高的客户先筛选掉呢？这就是大数据在金融当中的尝试，我们营销不是一味只做营销和获客风控已经开始了。

真正中后台的风控往往是更加精确的，在精准营销获取客户轮廓大致是准确的框架之下，能够获取更多的客户的行为数据也好，特征变量也好，能够解决更多的信息不对称性，从而比如风险的识别更加精确、快速7×24小时的信审决策，包括按照量化风险的风险定价策略，我们接下来一个个展开讲。

精准营销环节里面为什么可以把风控机制直接延伸过去，使得营销过去就可以识别客户的风险了。因为刚刚几位科学家也提到了，在很多数据上面，包括客户的浏览数据，历史消费数据等等，这些都是客户跟历史信用记录其实没有太大关系，反映的是生活习惯和消费能力等等。但是这些数据当然可以预测客户有没有购物需求，一般的消费类公司预测到有购物需求就可以了。但是作为一个金融公司来说在这个基础上我们会看一下他有没有分期的需求。

比如一个客户老是对于新上的iPhone版本爱不释手不停的看但是从来没有买过，或者上市之后半年再买，为什么？攒钱，不一定是卖肾。攒钱过程当中我们给他进行分期需求的建议，说不定就可以触动它。但是这个问题上你不对客户资质进行任何筛选，直接获客人进来往往会发生客户体验不够好，有些风险方面达不到要求，被中后台的风险给拒了。对于消费分期需求来说这是非常不好的体验，客户在网站上申请相当于向信用卡做分期购买一样，拒绝率太高会使得客户体验很不好，影响你平台的声誉。我们需要通过非信用类，非信用直接相关客户大数据的特征先做一个风险筛选的模型叫做预筛选，采用的是我们通常所说的客户行为大数据，而不是直接跟客户的信用历史，信用还款意愿等等这些东西相关。

这样的一个模型不会是太准的，刚刚哪一位博士说过KS大概是0.3左右非常正常，相当于只是预筛选，把一些风险明显偏高的客户先筛选掉，从而选出风险水平合适，同时又有消费金融需求的客户来。这些客户再进来，就会使得第一风控压力会减少，第二客户批合率上升，体验会好很多。当这样一些客户轮廓大致符合产品大纲的客户进来之后，真正进到了中后台，进入了风险控制的环节。

，获取的数据更多是客户的行为跟传统的征信报告不太一样，类似于通话记录，线上消费行为的记录甚至出行的记录等等，当然在金融领域里面非常重要的一个是多头借贷。所有客户特征数据进来，帮助我们解决信息不对称性的原材料，输入风控系统之后，里面会做一系列决策流的工作，就是在右半边会通过信审、模型和反欺诈政策综合判断这个客户的信用如何。在风险控制环节

，模型会把明显资质不行的客户筛选掉，一些资质风险非常好的客户也会直接通过。最难的就是中间一部分，比较灰色的。数据再厉害，算法再牛还是要落实到人身上，反欺诈、客户信用资质如何做到机器学习和人的主观能动性的结合，优化平衡点在什么地方非常重要。我们现在的做法是当模型筛选出来的灰色人群会通过决策引擎或者风控系统的方式，自动的去决定流转到信审团队还是反欺诈征信团队，并且告诉他需要检查什么东西，而不是简单的把这个case流转到任何一个专员，也没有太多的指令告诉他你做了什么综合判断。任何个人做综合判断总是不可靠的。首先过一下模型

举个例子，当这个客户信用资质或者消费能力存疑的时候，我们会做一件什么事情呢？下面会有一些部分的影像资料我们没有用到，是属于非结构化的数据，不能通过简单的模型自动识别，会自动流转到信审团队，告诉他帮我看一下有没有信审资质辅助性的材料。比如有没有房产证，有没有房贷的对账单，信审看了这些扫描件会有一个标准的入栏位，会把一个事实返回到风控系统当中，由这个系统基于综合性的数据再来做新一轮的判断，基于新的数据做新一轮的判断，判断下来还有问题，比如类似侦测到的组团骗贷，欺诈类嫌疑存在，还会流转到反欺诈政策会做更多人工调查。反欺诈政策返回的也不是判断而是事实，比如手机号跟一个侦测出来的集团和反欺诈团体有联系，会返回到风控系统当中，由系统做新一轮的判断，总而言之就是一个宗旨尽量减少人的判断，人工在这个环节里面只是数据的收集环节而不是判断环节，所有判断环节由系统自己去解决。

在这里提一句，刚刚整个流程当中最核心的是，不管是自动拒，自动过或者有信审更新返回的流程回来还是要通过这个模型，整个流程里面最最核心的是模型。我作为这个方面不是那么专业的人士，我想打一个比方。自动判断部分其实模型更多像我们在中学时候学历史是同样一个感觉，在一些已知成败得失的历史事件当中总结它的特征，总结它的趋势，从而对未来发生的未知事情有一个指导，这样的情况下如果100%全信历史的人是不是太过于迂腐，所以模型没有100%正确的，是模型肯定有误差。如果完全不信模型的人，就爱拍脑袋，你这个人就不太注重历史的学习，以个人历史学习为准，我以这样的角度解释建模的过程，当你选择用模型而不是通过个人的判断做风险决策的时候，你接受了两个前提假设，第一个前提假设历史经验是值得学习的，历史数据当中可以获取坏客户的特征，可以获取对于尽量的指导，并且我信任由那么多前辈科学家奠基为我设计的这些数学模型，这些数学模型可以准确描述我在历史当中学习的特征，用数学模型准确表达来，在可以形成后面的评分卡，形成我的风险决策。

我们的？其实除了数据的准确、积累之外，还有你对客户特征的收集是否越来越全。我一直都把建模的过程认知为一个盲人摸象一样，因为你本身没有见到这个客户，也不认识它。怎么才可以了解得更全，还款意愿和能力了解更全，就是通过很多人像摸一个大象一样，回来告诉体他们每个人摸到的是什么。这些征信公司、数据公司就是替我去摸大象的媒介，他们每一个人把他们感触到的东西返回过来，做一个综合性的判断。模型怎么做到更加准确

所以说当我们接入外部数据越多，换句话说我们对这个客户的了解越全面，信息不对称性的解决会越彻底。应该说2015年上半年大家还是比较注重一个黑名单的交换，下半年大家马上意识到黑名单是远远不够的，我们需要互通的全量的数据才可以解决多头借贷，过度负债等等的问题。获得这些数据还是不够我们还希望了解消费能力，因为很多客户没有征信报告当了解客户消费画像这些数据之后，还是觉得缺了一点什么，因为现在这样一个互联网尤其是手机这样时代大背景下很多客户主要行为是反映在线上的。要采用一些互联网的数据采集技术，获得客户更多的行为数据。比如线下的购物画像，比如手机运营商的历史记录，所以在这里我个人认为在整个P2P或者整个金融行业里面，将来很多时候应用的将是一些爬虫技术或者手机卖点技术，获取客户日常行为当中的点点滴滴，今天先讲到这里，希望一会儿跟各位更多的交流。

相关阅读

一文扫清征信市场现状：数据采集场景割裂仍是硬伤

专题推荐：金融毛细血管

零壹智库推出“金融毛细血管系列策划”，通过系列文章、系列视频、系列报告、系列研讨会和专著，系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。