企业数据治理的成功要素之一：数据战略管理

前言：作为一名数据服务工作者---资深“乙方”，见过、听过或亲身经历过很多的数据治理相关的项目，如：数据交换共享项目、数据治理项目、主数据项目、元数据项目……，这些项目中，有非常成功的——用的很好，也有差强人意的——勉强在用，还有没上线就下线的——基本没有使用。如果我们Review下这些项目，也许我们不难发现影响数据治理项目成功或失败的因素有很多，这些因素有管理方面的、业务方面的、技术方面的、企业文化方面的等等。

在笔者看来，数据治理项目的成功要素可以总结为以下几点，接下来的一段时间我会跟大家一起分享数据治理项目的各个成功要素，欢迎关注！

企业数据战略管理
数据治理架构设计
数据治理的时机与切入点
组织与保障体系建设
技术和工具——工欲善其事必先利其器
建立长效运营机制

本期分享主题【数据治理的成功要素1：企业数据战略管理】，本文大纲：

一、数据战略是什么？

二、数据战略不是什么？

三、数据战略的四个要素

四、数据战略的三个层次

五、数据战略制定的方法和工具

六、总结

一、数据战略是什么

战略原本是军事领域的专用名词，是指指导全局战争的规划和方略。战略决定了组织的活动方向和内容，解决“干什么”的问题，是根本性的决策。在DAMA-DMBOK中对数据战略是这样定义的：

战略是选择和决策的集合，共同绘制出一个高层次的行动方案，以实现高层次目标。通常，数据战略是一个数据管理计划的战略，是保存和提高数据质量、完整性、安全性和存取的计划。然而，数据战略计划可能还包括利用信息达到竞争优势和支持企业目标的业务计划。数据战略必须来自与对业务战略中的所固有的数据需求的理解，这些数据需求驱动了组织的数据战略。数据战略的组成部分包括：

为数据管理制定激动人心的愿景
数据管理商业案例摘要，附带精选的例子
指导原则、价值观和管理远景。
数据管理的使用和长远目标
数据管理成功的管理措施
短期的（1~2年，具体、可度量、可操作、可实现、有时限的）数据管理方案目标。
说明数据管理的角色和组织级其职责和决策权概述。
数据管理方案的组成部分
数据管理实施路线图
数据管理的项目章程
数据管理的范围说明

简单来说，企业数据战略包括：数据管理的愿景（长期目标）、中期目标、短期目标、实施策略、实施方案、实施路线图等。

二、数据战略不是什么

数据战略是企业愿景吗？

可能是也可能不是，或者说不完全是。我们看下各大公司的企业愿景是什么。

IBM：无论是一小步，还是一大步，都要带动人类进步。

苹果公司：让每人都拥有一台计算机。

阿里巴巴：分享数据的第一平台，幸福指数最高的企业，活“102”年。

腾讯：科技向善。

百度：成为最懂用户，并能帮助人们成长的全球顶级高科技公司。

用友：用技术和创想推动社会和商业进步。

企业愿景是企业利益相关者的本质诉求的整合，是企业战略的最高指引，可以理解为企业的长期战略。在当今席卷全球的颠覆性技术浪潮中，市场变化莫测，相对遥远的长期数据战略，笔者更倾向于哪些有着明确目标、明确范围、明确实施路径，具备可执行、可实现性的短期数据战略。世界变化太快，谁都无法预测10年后的世界是什么样子的，企业数据战略的指定一定要具备应对市场和技术变化的能力。这里申明，笔者并不是反对企业制定长期的数据战略规划，而是要在长期的数据战略之上细化出短期的可执行、可实现、能见效的战略目标，“小步快跑、快速迭代”。数据战略是企业战略的一部分，而企业战略是实现企业愿景的规划和部署。

数据战略是数据架构吗？

显然也不是，至少说不完全是。数据架构是用于定义数据需求，指导对数据资产的整合和控制，是数据投资和业务战略相匹配的一套整体的构件规范。数据架构包括正确的数据定义、有效的数据结构、完整的数据规则、健全的数据文档。数据架构整合了数据、流程、应用、组织、规范和技术，其典型输入包括：企业数据模型、企业价值链分析、数据库架构、商务智能或数据仓库架构、数据集成和整合架构、数据质量管理架构、以及文档和内容管理架构。

数据战略和数据架构不是一回事。定义数据架构的决定，是数据战略的一部分，实施数据架构的决策是战略决策。数据战略会影响到数据架构的设计，反过来，数据架构支持数据战略的实现，并指导其决策。笔者认为：数据架构侧重于技术，是企业数据管理的战术范畴，数据架构对上承接数据战略目标，对下联通数据战略实施计划。数据战略的落地除了需要数据架构的技术支撑，也需要企业数据文化的建设。

既然数据战略既不是看似缥缈的愿景，也是技术相关的架构，结合DAMA-DMBOK给出的数据战略定义，我们尝试总结下企业的数据战略究竟是什么。笔者看来：数据战略就是企业为实现某些业务目标而做出的数据规划和部署，主要包括：数据战略目标、数据战略范围和内容、数据战略实施策略、以及数据战略的实施路径和计划，这也就是我们所说的“战略四要素”。

三、数据战略的四个要素

1、数据战略目标——愿景和目标

愿景是制定企业战略的起点，是企业的长期战略，而目标是企业短期内要达成的明确目标，是企业的短期战略。企业数据战略目标的规划设计不仅要有“诗和远方”的田野，也要考虑生活“眼前的苟且”。正如我们前边提到的阿里巴巴公司，大多数人都知道阿里巴巴是一个电子商务公司，可马云说阿里巴巴是一家大数据公司，其远期的数据战略目标是“分享数据的第一平台、幸福指数最高的企业”。阿里系的产品，如：天猫、淘宝、支付宝……，每时每刻都在生产、汇集、加工着大量的数据，这些数据是具备变现能力的。通过数据的变现和分享，希望阿里成为幸福指数最高的企业指日可待。如果我们把“分享数据的第一平台、幸福指数最高的企业”理解为阿里的远期数据战略的话，当年阿里如火如荼的研发AliSQL替换Oracle的战略就是那个时期阿里的中期数据战略，这个战略从部署到实施花了10年之久；而当前被炒上天的“数据中台”就是目前阿里的短期数据战略，并且这个战略目前已经实现了。这里只是举例便于理解，也许阿里的数据战略并非如此。关于数据中台的话题，网上有太多的概念了，后边有机会的话可以分享下我对数据中台的理解，这里就略过了。

2、数据战略范围和内容——战略定位

战略定位是回答了“做什么”、“不做什么”的根本问题，企业数据战略定位，就是定义企业的数据管理/数据治理的范围和内容。按照DAMA的给出的数据战略范围主要包括：数据架构、元数据管理、数据标准管理、数据质量管理、主数据和参照数据、数据安全管理等。以上每个部分内容都可各成体系，那对企业来说，数据治理范围和内容该如何选择，却是摆在企业面前不得不回答的问题。这里，笔者建议企业的数据治理定位应充分考虑以下几点因素：企业的痛点需求是什么，希望实现的目标是什么，实施数据治理就能解这些问题吗，数据治理的投资计划（人力和资金），期望的投资回报率。把以上问题问题都想清楚了，你的数据战略定位也就清晰了——或选择全域治理、或选择个别亟待治理的主题。

3、数据战略实施策略——致胜逻辑

致胜逻辑是解决了“怎么做”，“由谁做”，“做的条件”、“成功原因”等问题，是战略的精髓。我们都知道数据治理项目涉及的业务范围广、系统范围大、参与人员多，并且数据治理是一个需要不断迭代、持续优化的过程，不能一蹴而就。那么数据治理项目该从何处入手，谁来主导、谁来配合、怎样才能保证项目的成功实施并能够取得效果？这个问题不好回答。根据笔者这些年见到、听到或亲身经历的数据项目，成功或失败，很大一部分因素是由这个“致胜逻辑”决定的。成功的项目不表，我们看大多数失败的项目都可能会有以下几个特点：目标不明确、范围不清晰、主导人员分量不足、参与人员不够积极、过分迷信技术和工具、过渡依赖外部资源……。做正确的事远比正确的做事更加重要，事前想清楚数据战略的致胜逻辑，要比事后总结教训的成本低很多。数据治理项目的成功一定是将以上因素有机整合，忽视某一因素都可能会影响的数据治理的成效。

4、数据战略的实施路径——行动计划

行动计划是落实战略目标或指导方针而采取的具有“协调性”的计划安排。行动计划解决了“谁”、“在什么时间”、“做什么事”、“达成什么目标”的具体活动计划。行动计划要具备可执行性、能够量化、能够度量，遵循PDCA的闭环管理，定期进行复盘和检讨。前文我们提到：数据治理是一个需要不断迭代、持续优化的过程，不可一蹴而就经验告诉我们：数据治理绝对不是引入先进的技术、牛X的软件就能够解决的。项目建设过程需要企业高层的高度重视并给予足够的资源支持，需要有经验丰富的顾问团队，需要技术部门和业务部门的通力协作，这样提高项目建设的成功率。然而，项目建设阶段的成功并不代表数据治理的成功，建设阶段的成功企业数据治理项目的终点，却是企业数据治理的起点。路漫漫兮其修远，企业数据治理需要的是持续运营，将数据治理形成规则融入企业文化，是企业数据治理的根本之“道”。

四、数据战略目标的三个层次

数据战略的三个境界——此节内容并没有官方定义，单凭个人理解，如有偏颇但求指正。笔者认为企业数据战略大致可以分为：满足基本的管理目标和业务目标、创新与创业、定义在数字化竞争生态中的角色和地位，三个层次。这三个层次并不是不同企业不同的数据管理目标，而是企业数据战略的在不同阶段、不同成熟度条件下的三个具体形态。

1、第一个层次——短期目标

满足基本的管理决策和业务协同。通过解决企业的数据管理中的各类问题，以满足决策分析和业务协同的需要，对于该层次的战略目标，笔者认为是企业最基础的、最迫切需要的、最能击中企业痛点的。随着多年的信息化建设，企业上了多套业务系统，而这些业务系统是由业务部门驱动建设的，缺乏信息化的顶层规划，各系统各自为政、各成体系、信息孤岛……，系统之间的数据不标准、不一致，导致的应用集成困难、数据分析不准确。可以说目前国内绝大部分企业都是处于这个状态，而信息技术的发展速度又太快，已逐步形成了技术倒逼企业数字化的转型的趋势，而高质量的数据资产，无疑是企业数字化转型的基石。

2、第二个层次——中期目标

创新与创业。基于数据实现企业管理的升级和业务的创新，通过数据的利用拓展新业务、构建新业态、探索新模式是笔者认为的企业数据战略的第二个层次，也是企业数据战略的中期目标。数据战略不再是企业战略的支撑，而是引导，或者说是相互作用，这个阶段“IT即业务”！对于传统制造企业利用数据的治理和融合，可以加速管理的创新、产品的创新、销售模式的创新，例如：利用数据治理加强集团管控、基于客户偏好的个性化定制、利用数据的供应链协同和优化、基于市场预测的创新产品设计与快速上市等等。对于服务行业利用大数据的探索服务的新模式，数据可以拓宽服务的视野，实现模式领域的横向拓展、服务精度的纵向延伸，例如：根据消费者需求推出定制化的主题房，酒店新零售的服务模式，都是酒店服务业在业务创新方面上的尝试，大大提升了客户的粘性，提高了酒店的盈利点。这样的案例，在金融服务、餐饮服务、医疗服务、教育服务等服务行业，每天都在上演……。未来的服务业的竞争将更加白热化，而数据资产的利用价值将愈发明显。

3、第三个层次——远景目标

定义在数字化竞争生态中的角色和地位，企业数据战略的最高奥义。用友董事长王文京预言：“未来所有企业都将是数字化企业”，针对这个观点本人深以为然。科技的变革将改变企业的业务形态和竞争模式，未来的数字化竞争中，数字化将是不可忽视的核心因素，企业数据战略的部署和成功实施，将决定您的企业在未来的竞争和数字化生态中，是领导地位、挑战者、特定领域者或是淘汰出局。“什么样的愿景，决定了什么样的未来”，企业数据战略愿景的规划一定要有未来的“诗和远方”。将数据战略愿景融入企业行动方针和核心价值观中，勾勒出企业未来的“图景”。例如，马云描述阿里巴巴的愿景：分享数据的第一平台，幸福指数最高的企业，活“102”年。

五、数据战略制定方法与工具

数据战略的制定以企业战略为基础、以业务价值链为模型、以管理应用为目标，以可执行的活动为步骤，通过系统化的思维，挖掘信息以及信息间的规律，经过科学的规划和设计，形成企业数据化运营的一幅蓝图。对于数据战略规划的方法，目前业界还未形成一套成熟的方法论体系，但是，IT咨询和IT战略规划的方法论已经比较成熟，可用作企业数据战略规划的参考，我们先看下各大知名咨询公司的IT战略规划方法：

埃森哲 IT战略规划方法论

IBM IT战略规划方法论

德勤 IT战略规划方法论

无论哪家方法论，对于IT战略规划本质上都是一样的，基本都包含了三个步骤：

1、调研分析，关键活动有：战略理解、需求分析、现状评估、行业最佳实践对比……

2、远景规划，关键活动有：业务规划、组织架构、技术架构、数据架构、应用架构、IT支撑……

3、实施策略，关键活动有：项目实施、进度和质量管控、效益分析、基础支撑……

以上IT咨询规划方法，同样适用于企业数据战略的规划设计，但在数据战略规划设计时需要重要考虑以下几个核心问题：

上一篇:数据标注----人工智能行业的基石

下一篇:AI换脸竟能做天天衣无缝，黑科技太可怕了！

推荐文章

人工智能未来的数据标注将会是自我标注

2017 年 7 月，最后一届 ImageNet 挑战赛落幕。为何对计算机视觉领域有着重要贡献的 ImageNet 挑战赛，会在 8 年后宣告终结？毕竟计算机系统在图像识别等任务上的准确率已经超过人类水平，每年一次突破性进展的时代也已经过去。近日，FAIR（Facebook AI Research）的 Ross Girshick 、何恺明等大神联手，在 ImageNet-1k 图像分类数据集上取得了 85.4％的准确率，超越了目前的最好成绩，而且没有使用专门为训练深度学习标记的图像作为训练数据。然而，这不能怪大家不努力，只怪 Facebook 实在太土豪。10 亿张带有 hashtag（类似于微博里面的话题标签）的图片，以及 336 块 GPU，敢问谁能有这种壕气？Facebook 表示，实验的成功证明了弱监督学习也能有良好表现，当然，只要数据足够多。话不多说，我们一起来看看 Facebook 是怎样用数据和金钱砸出这个成果的。以下内容来自 Facebook 官方博客，人工智能头条编译：图像识别是人工智能研究的重要领域之一，同时也是 Facebook 的一大重点关注领域。我们的研究人员和工程师希望尽最大的努力打破计算机视觉系统的边界，然后将我们的研究成功应用到现实世界的问题中。为了改进计算机视觉系统的性能，使其能够高效地识别和分类各种物体，我们需要拥有至少数十亿张图像的数据集来作为基础，而不仅仅是百万量级。目前比较主流的模型通常是利用人工注释的单独标记的数据进行训练，然而在这种情况下，增强系统的识别能力并不是往里面“扔”更多的图片那样简单。监督学习是劳动密集型的，但是它通常能够达到最佳的效果，然而手动标记数据集的大小已经接近极限。尽管 Facebook 正在利用 5000 万幅图像对一些模型进行训练，然而在数据全部需要人工标记的前提下，将训练集扩大到数十亿张是不可能实现。我们的研究人员和工程师想出了一个解决办法：利用大量带有“hashtag”的公共图像集来训练图像识别网络，其中最大的数据集包括 35 亿张图像以及 17000 种 hashtag。这种方法的关键是使用现有的、公开的、用户提供的 hashtag 作为标签，而不是手动对每张图片进行分类。这种方法在我们的测试中运行十分良好。我们利用具有数十亿张图像的数据集来训练我们的计算机视觉系统，然后在 ImageNet 上获得了创纪录的高分（准确率达到了 85.4％）。除了在图像识别性能方面实现突破之外，本研究还为如何从监督学习转向弱监督学习转变提供了深刻的洞见：通过使用现有标签——在本文这种情况下指的是 hashtag——而不是专门的标签来训练 AI 模型。我们计划在不久的将来会进行开源，让整个 AI 社区受益。▌大规模使用 hashtag由于人们经常用 hashtag 来对照片进行标注，因此我们认为这些图片是模型训练数据的理想来源。人们在使用 hashtag 的主要目的是让其他人发现相关内容，让自己的图片更容易被找到，这种意图正好可以为我们所用。但是 hashtag 经常涉及非可视化的概念，例如 “#tbt” 代表“throwback Thursday”；有些时候，它们的语义也含糊不清，比如 “#party”，它既可以描述一个活动，也可以描述一个背景，或者两者皆可。为了更好地识别图像，这些标签可以作为弱监督数据，而模糊的或者不相关的 hashtag 则是不相干的标签噪声，可能会混淆深度学习模型。由于这些充满噪声的标签对我们的大规模训练工作至关重要，我们开发了新的方法：把 hashtag 当作标签来进行图像识别实验，其中包括处理每张图像的多个标签（因为用户往往不会只添加一个 hashtag），对 hashtag 同义词进行排序，以及平衡常见的 hashtag 和少见的 hashtag 的影响。为了使标签对图像识别训练更加有用，我们团队训练了一个大型的 hashtag 预测模型。这种方法显示了出色的迁移学习结果，这意味着该模型在图像分类上的表现可以广泛适用于其他人工智能系统。▌在规模和性能上实现突破如果只是用一台机器的话，将需要一年多的时间才能完成模型训练，因此我们设计了一种可以将该任务分配给 336 个 GPU 的方法，从而将总训练时间缩短至数周。随着模型规模越来越大——这项研究中最大的是 ResNeXt 101-32x48d，其参数超过了 8.61 亿个——这种分布式训练变得越来越重要。此外，我们还设计了一种删除重复值（副本）的方法，以确保训练集和测试集之间没有重叠。尽管我们希望看到图像识别的性能得到一定提升，但试验结果远超我们的预期。在 ImageNet 图像识别基准测试中（该领域最常见的基准测试），我们的最佳模型通过 10 亿张图像的训练之后（其中包含 1,500 个 hashtag）达到了 85.4％的准确率，这是迄今为止 ImageNet 基准测试中的最好成绩，比之前最先进的模型的准确度高了 2％。再考虑到卷积网络架构的影响后，我们所观察到的性能提升效果更为显著：在深度学习粒使用数十亿张带有 hashtag 的图像之后，其准确度相对提高了 22.5％。在 COCO 目标检测挑战中，我们发现使用 hashtag 预训练可以将模型的平均精度（average precision）提高 2％以上。这些图像识别和物体检测领域的基础改进，代表了计算机视觉又向前迈出了一步。但是除此之外，该实验也揭示了与大规模训练和噪声标签相关的挑战和机遇。例如，尽管增加训练数据集规模的大小是值得的，但选择与特定识别任务相匹配的一组 hashtag 也同样重要。我们选择了 10 亿张图像以及 1,500 个与 ImageNet 数据集中的类相匹配的 hashtag，相比同样的图像加上 17,000 个 hashtag，前者训练出来的模型取得了更好的成绩。另一方面，对于图像类别更多更广泛的任务，使用 17,000 个主 hashtag 训练出来模型性能改进的更加明显，这表明我们应该在未来的训练中增加 hashtag 的数量。增加训练数据量通常对图像分类模型的表现是有益，但它同样也有可能会引发新的问题，如在图像内定位物体的能力明显下降。除此之外我们还观察到，实验中最大的模型仍然没有能够充分利用 35 亿张巨大图像集的优势，这表明我们应该构建更大的模型。▌未来的图像识别：更大规模、自我标注本次研究的一个重要结果，甚至比在图像识别方面的广泛收益还要重要，是确认了基于 hashtag 来训练计算机视觉模型是完全可行的。虽然我们使用了一些类似融合相似的 hashtag，降低其他 hashtag 权重的基本技术，但并不需要复杂的“清洗”程序来消除标签噪声。相反，我们能够使用 hashtag 来训练我们的模型，而且只需要对训练过程进行微小的调整。当训练集的规模达到十亿级时，我们的模型对标签噪音表现出了显著的抗干扰能力，因此数据集的规模在这里显然是一个优势。在不久的将来，我们还会设想使用 hashtag 作为计算机视觉标签的其他方法。这些方法可能包括使用人工智能来更好地理解视频片段或更改图片在 Facebook 信息流中的排名方式。hashtag 还可以帮助系统更具体地识别图像是不是属于更细致的子类别，而不仅仅是宽泛的分类。一般情况下，图片的音频字幕都是仅宽泛地注释出物种名称，如“图片中有一些鸟类栖息”，但如果我们能够让注释更加精确（例如“一只红雀栖息在糖枫树上”），就可以为视障用户提供更加准确的描述。此外，这项研究还可以改进新产品以及现有产品中的图像识别功能带来。例如，更准确的模型可能会促进我们改进在 Facebook 上呈现 Memories（与QQ的“日迹”相似）的方式。随着训练数据集越来越大，我们需要应用弱监督学习——而且从长远来看，无监督学习会变得越来越重要。这项研究在论文“Exploring the Limits of Weakly Supervised Pretraining”中有更详细的描述。

企业数据治理的成功要素之一：数据战略管理

推荐文章

热门文章