欢迎进入上海某某电子仪器有限公司网站
全国服务热线
021-49393958
2019大数据产业峰会|蚂蚁数据周泉:《蚂蚁金服数据资产管理之路》
时间: 2019-07-10 12:15 浏览次数:
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大......

为了深入落实国家大凯发国际首页数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。

会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。

来自蚂蚁数据平台部高级专家周泉为我们带来了《蚂蚁金服数据资产管理之路》的精彩演讲。

周泉

大家好,我是来自蚂蚁金服数据平台部的周泉,我的花名叫方悟,比较有幸受邀分享蚂蚁在数据资产方面的经验。

讲实践经验之前想稍微简单介绍一下蚂蚁到底在做一些什么事情,大家对我们做数据资产管理这样可能会有更好的理解。蚂蚁金服在创立之初,最开始我们把自己定义了一个使命,就是我们希望能为世界带来更多平等的机会。

什么叫更多平等的机会呢?如果我们看蚂蚁从支付宝成立到2019年,过去15年来,蚂蚁业务在做一件事情,这件事情就是让所有人,让每个普通消费者,中小微企业都能销售到极致的金融服务。我们希望让金融更普惠,让所有小微企业,每个消费者享受金融服务的时候同时能够沉淀一些数据,沉淀一些信用,让这个信用等于财富。

整个过程中,我们从2004年担保交易解决买卖家互信的问题,到微贷解决中小微企业贷款难、融资难的问题,一直到相互宝,解决大病互助的问题。我们做的这些事情,实际上都是用科技让金融服务能服务到所有的人。

科技这个东西到底是什么东西呢?从我们的理解来看,实际上有两点。第一点是说互联网技术,互联网技术能改变我们过去从网点才能服务客户,现在可以通过互联网触达更多的客户。第二点就是数据,数据让我们更懂消费者,数据让金融更加普惠,这是我们做这个事情成为可能的一个地方。

其实可以看到,今天蚂蚁金服所有的业务中,数据已经融于每个业务,无法被分割了。我们从成立蚂蚁金服的第一年开始,整体的数据资产规模已经突破了100PB,发展到今天按照过去的增速来看,2020财年结束,数据资产规模是EB级别。我们做了一个不精确的统计,蚂蚁金服内部有将近一千多名同学直接从事数据研发工作,三四千名同学在围绕数据开展他们的业务。所以在这个背景下,我们会发现对于数据平台、数据中台来说,最大的挑战是如何把EB级的资产管理好,同时让四五千名同学高效的协同,能把数据用好,这是我们碰到的最大的问题。

如果从蚂蚁业务来看的话,蚂蚁业务对于数据来说最大的诉求是什么?什么样才叫管好,什么样才叫用好,基于我们自己的理解有一些总结。我们总结为“133原则”,我们一定需要一份全局的数据资产,蚂蚁的业务相对比较复杂,我们有支付、微贷、保险、财富等等各种各样的业务板块,这些业务板块之间有自己的业务数据,我们第一个原则要确定的是说,所有数据要能互通。另外我们也不允许数据被反复拷贝,因为这么大的数据规模这个成本是吃不消的。

对于金融业务来说,最大的几个特性是什么?首先数据不能错,不能错是大家讲得比较多的数据质量的问题,还包括数据风险的问题。数据质量和数据风险,其实对于金融业务来说是生命线的东西。因为金融业务很多时候是跟金钱,跟钱相关的,所有的数据一旦出现质量问题或者错误,带来的可能是比较大的,比如说舆情风险。另外不能重的问题,我们认为所有的数据治理,万恶之源其实来自于数据资产的重复。数据膨胀会带来巨大的存储成本,另外标准不一致,大家找到数据不敢用。

我们希望所有数据对金融行业来说不能漏,我们需要对所有数据有个统一定义,数据在没有被定义之前其实是很难被使用的,因为会出现他认识你,你不认识他的情况,就是你不知道数据口径是什么,是谁在复杂,安全等级是什么,法律主体是什么。如果我们使用数据之前不知道这些信息,实际上所有数据使用都是有风险的。

另外对金融行业来说这也是很大的特性,就是我们不能对所有业务数据有采集遗漏的情况,因为金融核心是在于控制风险,包括交易的反欺诈、反盗用、反盗刷、反套用、反多投、反骗保、系统性金融风险以及一部分需要承担金融企业的业务,比如要做一些反恐和反洗钱的相关工作,我们要把所有数据看全,不能有任何遗漏,看全才能有风险判断。

把所有问题解决了,我们还会碰到一个比较大的问题,就是权益互通的问题。我们定义为三个通,技术通、标准通、使用通,还是从这几个方面来看。技术通解决的是任意数据都可以被计算、使用,不管你什么城市、国家,是用什么计算引擎,是什么时效,应该都是被无感使用的,这是解决基础孤岛的重要前提。另外标准和使用通,所有都是贯穿式使用,这要求技术算法的统一。

蚂蚁整个的数据治理发展历程可能是三个阶段,

第一个阶段是PB级,人治的过程,是要有专家治理、专家经验支撑。

第二阶段百PB级,是用数据治理数据,我们需要用数据告诉我们哪些地方有问题,包括我们会做一些资产画像。

第三个阶段是EB级,我们希望所有的治理应该是往前走的,我们希望能有一些突破,这就不展开讲了,如果有问题的话后面可以一起聊一下。

这是我们做这件事情的平台架构,我们的核心观念是说数据治理和数据平台能力没有办法分割,至少在大规模的数据治理情况下。我们理解解决数据风险,解决安全合规都有一些方法或者从技术角度来看都有一些要求。

Copyright © 上海某某电子仪器有限公司 版权所有
全国服务电话:021-49393958   传真:
公司地址:

客服
点击这里给我发消息 在线客服
电话
服务电话:
021-49393958
微信

微信公众号