神策数据曹犟:数据治理中的一些挑战与应用

  • 时间:
  • 浏览:2

本文根据神策数据联合创始人&CTO曹犟在神策2019数据驱动大会的精英训练营上发表的《数据治理中的有些挑战与应用》主题演讲派发而成。本文将为你重点介绍:

·数据治理的概念与重要性

·数据治理面临的挑战

·数据治理与组织架构

·数据治理中的应对

有些大数据公司在过去一段时间都得到了较好的发展,究其意味分析是而且恰逢专注于业务流的信息化建设正在向数据化转型。但在统统可是我,数据实在还可是我IT化的“副产品”,早期的工作思路仍然围绕怎么才能 才能 将业务IT化,而数据可是我你是什么 过程中自然而然产生的结果,即所谓的“副产品”。而且在数据生产的过程中并未做到足够重视,数据质量与可靠性则好难得到保证,这也是数据治理在现在得以被重视的重要意味分析。在业务IT化的过程中,企业通过第三方厂商、自研等土方式构建多种数据系统,采用多种系统中的数据化治理,是实现数据效能、数据驱动业务的关键步骤。

早期,企业用信息技术去构建业务流,而现在,亲戚朋友 试图用信息技术,怪怪的是互联网行业中的有些大数据出理 以及分布式出理 技术构建数据流,但在构建过程中,越多强调技术四种 而忽视了对数据的治理。

数据治理是整体性难题图片,暂且仅是技术难题图片,市面上数不胜数的商业组件能都要能了出理 怎么才能 才能 对数据进行存储、查询等难题图片,而且在实际的业务情况汇报下对于数据治理可是我一另一一个多 多系统性工程,目前却并无现成的产品或技术能都要能了直接出理 。

企业的数据流建设

亲戚朋友 能都要能了尝试用数据治理的厚度来解读上图。

构建数据流的过程,很大意义上是为了出理 分布在IT系统里各个不同子系统之间的数据孤岛难题图片,用四根删剪的数据流将不同子系统之间的数据孤岛打通,同时应用于不同的应用场景,你是什么 打通的过程,可是我四种 意义上的数据治理。这也反映了我可是我尤为推崇的一另一一个多 多观点——构建数据仓库四种 可是我一另一一个多 多数据治理的过程。

另外,对于数据的本质,我总是推崇如下另一一个多 多定义,第一“信息是用来消除不选者性的”,第二“大数据的本质,可是我用信息来消除不选者性”。同样,对于数据驱动在业务决策和产品智能两大方面的应用,也都将建立在数据治理的基础上才有意义。

数据驱动的两类应用

一、什么是数据治理?

数据治理的本质是组织对数据的可用性、删剪性和安全性的整体管理。

1.数据治理的本质

可用性指数据可用、可信且有质量保证,越多再而且分析结果的准确性造成偏差,从业者能都要能了放心地根据数据结果做业务决策;删剪性分为另一一个多 多方面,一方面指数据需覆盖各类数据应用的要能 ,该人面指越多再而且数据治理这麼到位而造成数据资产的流失,也即影响数据资产的积累,这也是神策数据在创业伊始便开展私有化部署的意味分析;安全性指治理和分享过程需安全可控,不侵犯用户隐私,且越多再给组织留下安全隐患。

2.数据治理的重要性

数据治理是所有数据应用的根基,数据治理的好坏直接影响所有数据应用的价值。

无论是基于数据看报表,还是做交互式的多维分析,还是做更繁复的个性化推荐,所有的数据应用都要能 有一另一一个多 多良好的数据治理结果。神策四种 就拥有一款推荐产品——神策智能推荐,通过这款产品的实践,亲戚朋友 发现,它的实施周期相比其它哪多少产品普遍偏长,这也是而且个性化推荐对于数据的质量和准确性要求相对更高。简而言之,数据应用做得陷得入,所需数据就会更多,对数据质量也会有更高的要求。

数据治理是组织数据资产沉淀的基础,数据治理的好坏直接决定了组织的数据资产能都要能了得到沉淀,能都要能了充分地发挥价值。

总是会有客户主动来询问:“领导说亲戚朋友 要做一另一一个多 多数据中台沉淀数据,但不知具体意味分析,亦不清楚搭建中台的具体目的,而且要等搭建可是我寻找数据价值时,再去探索具体应用。”该人认为,在经费条件允许的情况汇报下,当然能都要能了将企业的所有数据整合在同时,通过良好的权限管控,充分的共享,聚合所有的业务部门同时去探索数据的应用,而且数据中台四种 就承载着组织实物所有数据的整合分享角色。

二、数据治理面临的挑战

本帕累托图的内容将数据治理面临的挑战分为两类,一类因“技术”而起,一类因“人”而起。由客观的技术难题图片对数据治理带来的挑战普遍较好出理 ,比如怎么才能 才能 派发数据、怎么才能 才能 存储数据等,都可通过更先进的工具、更新的技术等土方式出理 。而由人或组织架构带来的难题图片相对繁复,它的身旁中有 的是企业在文化、流程上的难题图片,能都要能了通过以下实例说明。

1.多业务系统多数据源的整合挑战

企业我想要做的数据应用越多,所需的数据就会越多,所要去获取的数据源也会增多,而相应的数据出理 也会越多,这是一另一一个多 多极为显而易见的难题图片。对于神策数据而言,亲戚朋友 在数据应用方面相对“单纯”,主要针对用户行为领域,派发用户行为数据,从客户端、服务端、数据库等做对接。但即使是可是我一另一一个多 多限定特殊领域的应用,亲戚朋友 在整合多方面数据源上也会碰到非常多的挑战,可想而知在面对多业务系统多数据源的情况汇报下将更加困难。

多业务系统多数据源的整合的挑战

2.数据派发技术上的挑战

近年来,有些公司删剪也有尝试将该人的业务线上化,都要能 通过数据对用户进行分析与运营,怎么才能 才能 精准派发可用的用户数据以及有些相关数据,都将是数据派发在技术层面上方临的挑战。

数据派发技术挑战

3.用户隐私与安全挑战

用户隐私与安全不仅是对技术挑战,更多的是四种 意识上的挑战。企业要能 准确把控数据派发的红线,比如针对欧盟范围内的国际业务,就要能 参考GDPR的相关规范。

在国内,统统银行券商等企业也同样拥有一套完善的数据合规要求,甚至而且细化到“某个特定字段对于某一另一一个多 多特定人可看但不可下载”的程度,什么删剪也有要能 在进行数据治理时考虑的因素。另外,而且要能 在公网传输交换数据,也同样要能 思考数据怎么才能 才能 出理 窃取和伪造的难题图片。

用户隐私与安全挑战

4.组织架构与部门隔阂带来的配合

帕累托图组织在数据治理的过程中速率过慢,成效不好,其中一另一一个多 多怪怪的要的意味分析是权责、部门配合等方面位于难题图片。统统情况汇报下,生产数据、使用数据、分析数据的工作人员分布在不同的职能线与部门,角色不同,立场可是我同,什么客观位于的影响因素也有影响整个数据治理的最终结果。

组织形态与部门隔阂带来的配合挑战

5.业务持续迭代中带来的挑战

在互联网行业中,尤其是业务迭代较为迅速的团队里,通常位于“1.0版本的数据质量最优,1.1版本不行,2.0版本删剪不可用”的说法,说明第一次做数据治理时,极重视数据质量,会有完善的流程来保证派发的准确性,四种 也这麼越多的包袱;而在后续的产品迭代中,而且流程和标准的迭代相对滞后,整个数据治理的结果也会随着受影响,最终意味分析整个数据质量低劣,直至所谓的“删剪不可用”。

业务持续迭代中带来的挑战

下面举另一一个多 多具体实例说明。

实例1.

某公司的业务部门向第三方数据分析平台提出数据需求,该公司实物有多个App频道,每个频道隶属于一另一一个多 多单独的部门,而第三方数据分析平台在派发派发阶段要能 不同部门的团队相互配合。而且缺陷统一各部门需求与任务的统筹角色,实施过程中好难清楚划分相关责任,加上上管理、测试等工具的缺失,最终意味分析每次发版也有位于派发丢失和报错。

实例2.

某企业的所有用户相关数据分散在不同的系统上方,试图通过第三方数据分析平台整合统一的用户标签数据系统。然而在派发数据的过程中,每跨一次部门就要能 提一次全套的审批流程,好不容易派发齐各部门各系统中的数据可是我,却发现数据统计口径不一致,无法得到一另一一个多 多公司统一的用户标签数据。

三、数据治理与组织架构

上述内容而且提到关于组织架构的内容,因其重要性将在本帕累托图单独说明。

1.数据治理是一另一一个多 多动态的过程

数据治理实际反映的是组织难题图片、文化难题图片,这也是有些公司为了明确权责划分而建立数据治理委员会的意味分析。同时,还要能 明确的线程与执行线程的计划,明确的线程指对数据进行治理所需经历的阶段、难题图片有明细的了解,执行线程的计划指每一步要能 出理 什么难题图片。当公司的主流业务位于变化时,组织架构会随之改变,接而带来数据治理层面的变更,统统,数据治理是一另一一个多 多动态的过程,伴随整个业务变更与组织架构变更。

2.数据治理中的另一一个多 多核心角色

第一,数据使用者,通常集中在产品经理、数据分析师、营销经理、运营经理等岗位,有查看报表、数据分析、用户画像、用户运营等需求,亲戚朋友 属于数据治理的受益者。

第二,数据生产者,通常集中在前端开发、后端开发、数据工程师、ETL工程师,有派发、打日志、做数据ETL的需求,亲戚朋友 属于数据治理的付出者,而且看都要能了直接收益,反而增加工作负担。

而且数据使用者属于数据治理中受益的一方,多数情况汇报下需由其来推动数据治理任务进行。

在神策数据的具体实践中,亲戚朋友 非常强调对客户接口人,通常情况汇报下也可是我数据使用者的培训,由他去推动整个流程,去了解数据生产者的实际情况汇报,从而让数据治理工作更好地进行。

四、数据治理中的应对

首先,数据治理的核心认识是,数据治理是一另一一个多 多持续而且长久的一另一一个多 多过程,不同的产品能都要能了出理 比如派发、传输等数据治理层面上的不同难题图片,但暂且位于一款所谓的“数据治理产品”,能都要能了用来出理 所有难题图片。

其次,数据治理的整体土方式论是“从应用倒推”。先选者数据应用、数据资产的需求,接着选者要能 什么数据,可是我选者要能 从哪种数据源获取数据,最终选者具体的数据治理方案。

神策凭借近年在实际业务中的经验,围绕用户行为分析领域,总结出一套数据治理土方式论。

用户行为的数据治理

第一步,选者分析需求。通过了解数据使用者要能 看什么指标、用在什么场景、使用什么分析模型等方面来了解具体的数据使用需求,完成需求梳理。

第二步,映射数据模型。在该步骤需选者派发的事件和属性,并完成事件设计。

第三步,选者数据派发技术方案。根据要采的事件和属性,结合现有实际业务系统,去选者到底要从何种系统里以何种技术方案派发数据。

第四步,数据派发与集成。你是什么 步可是我指具体的开发、集成工作,包括完成相应的SDK集成、数据派发工具的开发、数据ETL开发等。

第五步,数据校验和上线。你是什么 步中要能 使用必要的测试工具、利用派发管理平台做数据对比等。

下面,举例说明数据治理的三大原则。

数据治理原则1:暂且先污染后治理,要从源头控制

在创立神策数据可是我,亲戚朋友 曾长期参与百度的日志数据相关的工作。在最现在现在开使的阶段,所谓的日志出理 可是我通过中控机器,暂且同的业务系统里下载文本日志,跑完脚本后生成报表,再通过邮件的形式派发。

10008年,团队出理 了可是我方案中的技术架构的难题图片,把可是我的单机系统变成了分布式系统,提高了整体性能与计算速率,用分布式的土方式下载日志,用分布式的土方式来计算报表。而且,亲戚朋友 本质上只提供了一另一一个多 多计算的调度平台。就数据四种 而言,这麼人知道什么海量数据其中的细节,数据这麼得到充分的复用,造成了有些计算资源的浪费。统统,这帕累托图的工作实在可是我出理 了一另一一个多 多技术难题图片,但并这麼出理 任何数据治理方面的难题图片。

意识到数据治理的难题图片可是我,团队中现在现在开使了百度用户数据仓库的构建工作。有工程师每天将文本日志用线程转成形态化日志,并在进行必要的数据清洗、Union、Join等ETL的工作可是我,将什么形态化日志统一映射到一张大表(今天event模型前身),并对外提供集中访问。但随着产品线不断增多,入库周期变得更长,到后期,每增加四根产品线,都要能 付出大约一周时间去出理 。同时,而且数据在产生后会能 做ETL,从产生到传输到统一的Hadoop集群要能 时间,ETL的计算也同样要能 时间,即使在最佳情况汇报下也都要能了保证半小时的时效性。这是一另一一个多 多典型的数据“先污染后治理”的例子,不仅在治理上要能 付出更多的代价和成本,数据四种 的可用性和时效性也会受到影响。

可是我,亲戚朋友 尝试通过推行全百度统一的Logging平台,从打日志现在现在开使就保证数据的正确性,而且直接将数据传输到分布式集群上以保证数据的可用,这可是我从源头来治理数据的思路。

在创立神策可是我,亲戚朋友 就充分吸取了什么教训,通过SDK而且有些工具去严格控制数据派发格式及数据模型,尽最大努力减少ETL的代价,从而保证查询时效性与导入时效性。统统,数据治理要从源头现在现在开使,暂且先污染后治理。

数据治理原则2:数据治理的过程要贯穿到整个业务迭代的过程中

以软件开发流程为例。首先,在产品需求阶段,同样要能 去明确数据需求。在具体设计阶段,完成产品交互系统架构变更的同时,去选者要加什么日志、字段等。在实际开发阶段,完成相应的代码开发、日志变更,单元测试应包括相应的日志变更帕累托图,并进行日志审计,暂且将派发当成一另一一个多 多单独的开发任务,可是我伴随的过程。在测试阶段,当测试整体性能的正确性的同时,测试数据、日志的正确性,确保功能符合预期、日志打印正确,能都要能了满足分需求。在上线阶段,要实际查看上线的派发、日志是是不是正确,并对功能进行确认。最后,在项目总结阶段,用数据说明转化率变化、流程优化情况汇报,对功能完成程度的总结,尝试真正地用数据说话。

数据治理原则3:以产品化、组件化的思路来出理 ,都要能了依赖于人工

以产品的土方式出理 客户端数据派发难题图片。神策的开源SDK被有些业界同仁参考学习,究其意味分析是而且它用产品的土方式出理 客户端数据派发难题图片的思维,无论是电商、社交、金融、游戏,还是哪四种 产品,也有在客户端派发用户数据时面临匿名ID生成、基础属性派发、数据打包压缩加密、本地缓存、网络传输、时间校准、根据数据模型限定了派发数据的Schema、通过全派发等土方式提供了对常见数据的自动派发功能、结合后端提供了对于派发端调试功能等场景,统统,能都要能了用产品思维来出理 的难题图片,不依赖人工。

在创办神策可是我,我和团队可是我利用一另一一个多 多日志库去出理 日志格式的难题图片,类似于现在市面上流行的有些Java的日志库,从server中获取所有日志的Schema,并使用Schema打日志,保证日志在格式上的正确性和统一性。

如今,神策实物的SDG产品希望用产品的土方式来出理 样派发管理、ETL、数据校验一系列的难题图片。以往,亲戚朋友 该人的客户群中有 销售、客户成功、分析师、实施工程师等多种角色,目的是最大限度减少上线前在设计、派发、校验、交付等场景中而且总是出现的难题图片。但商业的本质是速率,要能 用产品去解放众多客户群中大批量的人力,通过一另一一个多 多删剪的平台,去查看整个数据治理的过程,去出理 客户们诸如“我上线的可是我,把他的类型搞错了缘何办?”“缘何把错误的数据搞定来修改后再填进去?”等难题图片。

以某大型的连锁商超客户的数据治理为例。

该商超当时位于的现状难题图片有另一一个多 多:第一,时间多、缺陷规范和管理;第二,派发需求的沟通成本大且派发代码总是被破坏;第三,无法进行有效的业务测试,上线后总是出现难题图片修复周期很长。

在出理 过程中,神策团队从最终的应用倒推,首先重新梳理事件设计方案,接着废除原有混乱派发,土方式新的派发方案和规范,重新进行派发,可是我开发派发管理平台,包括创建派发需求、派发需求审核等,最终在数据校验阶段,测试团队开发测试工具以便校验数据,并通过网络抓包摘取SDK上传的数据,利用派发管理平台导出的配置(事件设计)进行对比测试。

可是我例子,以某支付平台客户数据治理案例为例。

该案例当时位于的主要难题图片有两点,首先,每次发版会有派发丢失和报错,其次研发把错误的数据传到生产系统。团队通过分析发现,引发这两点难题图片的主要意味分析是部门隔阂以及多角色执行都要能了位意味分析。于是,团队成员通过需求提出、事件设计、需求澄清、数据派发、数据校验等步骤重新构建需求运转流程,梳理治理方案,从角色赋能、工具选者等多方面对支付平台的客户数据进行科学治理。

另外,神策实物总是强调“价值交付”,“价值”不仅仅指通过神策的产品出理 现状难题图片、改善业务指标,广义而言,还包括神策团队怎么才能 才能 帮助客户搭建数据仓库,做好数据治理,以及赋予客户一套完备的交付流程。

神策团队结合具体业务实践,针对企业不同的发展情况汇报,总结出两类数据治理层面的实践土方式论。

首先,对于初创企业而言,在组织层面要能 数据使用者从需求现在现在开使负责推动数据治理,相关的数据生产者积极配合。在流程历史层面应侧重于从源头控制数据的产生与派发,并在软件开发流程中将数据治理贯彻下去。在工具层面,需在BI工具、分析工具等方面做较多投入。

其次,对于心智心智心智成熟图片 图片 的句子的句子图片 图片 期期期期企业而言,在组织层面要能 “一把手”工程,可成立单独的数据治理委员会,贯穿不同部门。在流程层面,心智心智心智成熟图片 图片 的句子的句子图片 图片 期期期期企业的“数据包袱”较多,应侧重于对已有数据和系统的治理,同时要能 从上到下的推动,将数据治理结果与绩效挂钩。在工具层面,整体架构要能 结合该人的实际情况汇报做统一设计,外采的工具主要作为整体架构的必要补充,除了数据应用之外,在审计、风控等方面可是我需要 有较多的投入。

关注神策数据公众号,回复“数据治理中的有些挑战与应用”可下载原版PPT资料。

神策2019数据驱动大会六大城市联动时间预告

上海:2019年11月8日(周五)

深圳:2019年11月8日(周五)

成都:2019年11月15日(周五)

杭州:2019年11月15日(周五)

合肥:2019年11月22日(周五)

武汉:2019年11月29日(周五)

关于神策数据

神策数据是专业的大数据分析平台服务提供商,致力于帮助客户实现数据驱动。公司围绕用户级大数据分析和管理需求,推出神策分析、神策用户画像、神策智能运营、神策智能推荐、神策客景等产品。

此外,还提供大数据相关咨询和删剪出理 方案。神策数据积累了中国银联、中国电信、百度视频、小米、中邮消费金融、海通证券、广发证券、东方证券、中原银行、百信银行、中青旅、平安寿险、四川航空、翼支付、好未来、VIPKID、东方明珠、华润、有赞、百姓网、货拉拉、闪送、驴妈妈、Keep、36氪、拉勾、VUE、春雨医生、聚美优品、惠头条、纷享销客、妈妈帮等10000余家付费企业用户的服务和客户成功经验,为客户全面提供指标梳理、数据模型搭建等专业的咨询、实施和技术支持服务。希望更深入了解神策数据或有数据驱动相关难题图片,请拨打1000610009827电话咨询,会有专业的工作人员为您解答。