首页 » 智能数据:如何挖掘高价值数据 » 智能数据:如何挖掘高价值数据全文在线阅读

《智能数据:如何挖掘高价值数据》第3章 智能数据冠军选择正确的数据是成功的基础

关灯直达底部

“每天,我们每秒制造出的数据量相当于美国国会图书馆全部馆藏的3倍。但是,它们大多数是像YouTube上的影片,或是像13岁小孩之间谈论下一部《暮光》系列影片的短信一样。

——纳特·西尔弗

聪明的数据使用者

亚马逊首席技术官沃纳·威格尔(Werner Vogels)宣称:“我们从来都不嫌信息太多,信息越多越好。”从理论上讲,这有一定道理,但从实践上来看,这完全是个谬论。

很多企业的IT系统都是满负荷运行。这些系统自然不是可任意延展的。给系统扩容往往会比预计的情况花费更长的时间和更多的费用。将数据和应用转移至“云端”,从技术上看同样也是很艰难的,而且基本上,花费也总是超预算。与此同时,还要考虑系统安全和数据保护问题。

纳特·西尔弗(Nate Silver)是统计学家和知名博主。2008年美国大选之前,他所掌握的数据量肯定远比手握大量预算的美国选情机构少。他在自己用虚拟名字申请开设的个人网页FiveThirtyEight.com上发表了他关于奥巴马将会获得第一次总统竞选胜利的预测。他准确的预测使电视上德高望重且手握大量数据的媒体评论员们显得十分落寞。实际上,美国50个州的投票结果被纳特预测对了49个,只有印第安纳州的投票结果错了。在2012年奥巴马第二次参选美国总统的时候,纳特准确预测了全部50个州的投票结果,其中包括了“摇摆州”和哥伦比亚特区。

如果世界上存在一种像诺贝尔奖一样的奖项,用于表彰过去一年中最聪明的数据使用者的话,那么纳特·西尔弗绝对是最具竞争力的候选人。评奖委员会可以在颁奖词中做如下描述:

纳特·西尔弗在经初步研究后提出了正确的假设,而后又根据这一假设挑选出了正确的数据。他遵循“试错法”来不断优化他本来已经很简洁的预测算法,使整个预测系统具备了自我学习功能。在与假设的不断比较中,他反复问自己:从人为估算角度来看,哪些关联是真正重要的?哪些关联只是出于预测系统统计方面的需要,才看起来显得重要?

对纳特来说,只有数据量少,他才能真正地利用这些数据。这位来自密歇根州不惹眼的统计学家的大数据分析成功事迹的迷人之处在于:事后再去审视,他对于选情的研究与人类基本常识相比,是一种变异形式。所谓的人类基本常识是这样的,一个小男孩跟他的父亲说,刚刚看到前面路上有5元钱,他的父亲回答道:“孩子,那现在肯定没有了,早就有人把它捡走了。”

纳特·西尔弗创造性地优化了选举结果预测,基本思路很简单,那就是群体智慧优于某一个专家的个人智慧。之前是因为令人难以相信,所以没人真正利用这一点。来源于多个选情预测机构的分析手段肯定比其中某一个机构的分析更能够给出接近真相的预测结果。如果将这种大数据分析理念移植到商业层面,那么我们可以得出这样的假设,即大数据分析的“硕果”藏得很隐蔽。

在这个移植过程中自然会有一些注意事项,而且也很难想象,大多数行业的数据挖掘者会像选情研究人员那样错过真正重要的信息。但从过去10年我们的项目研究经验来看,基本上都证明了:

超多的超级“硕果”都隐藏得超级深!

只有当我们抛开了那些时髦话和与之相关的、看似具有说服力的观点时,我们才能真正收获这些“硕果”。换句话说就是,我们必须运用正确的方法,系统地去寻找真正有用的信息。

找对数据比拥有超多数据更有用

如果想收获“数据果实”,我们必须注意以下几点:

☆正确的数据

起决定性作用的不是数据量,而是具有多样性的有用数据。目前,很多企业拥有的数据量已经超出他们的使用能力。有用数据是指重要数据。当然,即便是最好的数据分析科学家也不可能提前就准确地知道,哪些数据对促进市场营销或者提升经营水平来说是重要的。但是如果能够提前知道,就可以大大降低成本,极大地提高数据研究项目的效用,所以项目负责人都会愿意在选取重要数据方面投入大量的时间和资源。经常出现的情况是,掌握的数据太具有同质性了。在大部分的数据应用领域,多样性都是最重要的数据筛选标准。对于结果的质量来说,数据量往往是第二位的。此外,非结构化数据,例如来源于脸谱网、博客和论坛上的数据信息,它们的价值被过分高估了。非结构化的数据信息来源于与企业主营业务关联性较小的一部分人,他们遗留的信息相对来说重要性较小。然而,依据我们的项目经验,在客户资料库中有很多数据宝藏,它们的数量和价值反而常常被低估。

☆正确的假设

我们提出假设,这些假设是通过我们系统的思考和实践经验得出来的。想好了再做,这在数据分析方面也同样是有道理的。一些企业所存在的在数字化方面操之过急的行为,就没有遵循这一简单真理。

☆正确的行动

提出假设并不意味着一开始就对结果带有倾向性。(客户的)世界不会是像我们预期的那样。用杜克大学经济学家丹·艾瑞里的话来说就是,客户是非理性的。提出假设往往只是系统工作流程的起点。假设会在不断“尝试—修正—再尝试—继续优化”的过程中发生变化。

☆正确的工具

能够带来最高增值的并不是最复杂的分析工具,而是最适合的工具。用Excel图表去分析整理区域内直邮业务的盈利情况,相较于利用昂贵的社交媒体数据收集手段去分析“病毒效应”对提升品牌价值的贡献度而言,往往有可能会获得更有价值的认识。同样,有意识地采用“面包黄油方法”,即有规律地抽样控制(统计干扰),可以规避一些错误决策带来的损害,这些错误的决策有可能是由错误地执行或者解读大数据分析结论导致的。

☆正确地使用资源

结果说明一切。在市场和销售行业的智能数据应用范畴内,要时常记住这句话。原因是,人们(尤其是德国企业的决策者)总是痴迷于探寻事物之间的关联性。在每一次系统地大数据分析之后,我们往往只是知道了其中某一特定的相互作用机制,比如在C范围内,目标客户群体A是如何通过盲目购物对B的促销行为做出反应的。然而,我们却没有考虑清楚我们为什么要这么做。过分探寻事物相互作用的原因会使整个部门都感到疲累,就像我们一再体会到的那样。聪明的数据使用者应该知道如何配置分析资源与精力。

基于上述对数据分析的认识和态度,首先在市场营销和产品销售领域,我们给出了我们的“智能数据方法论”:

☆智能数据涵盖了有计划的、重点突出的数据分析方法和流程,目的之一是降低成本,其二是在既有或是新的商业领域、商业模式中获得额外收入。这些方法和流程将实践知识、理论模型与统计学分析方法、机器的自学习功能(机器学习算法)结合在了一起。

☆大数据流程是去搜集尽可能多的数据,然后尝试通过运用存储、计算、分析技术,推导出开放式因果关系。与大数据不同,智能数据是以提出假设为基础,原则上使用的数据量较小,但是具有多样性。

☆绝大部分智能数据项目是结果导向型的,同时节省资源。投入使用的IT设备必须持续性地证明它们的有用性。结果导向型以执行能力为先决条件。智能数据项目的规模不会给企业造成经济上或人力上的负担。

“3W”:为什么?如何做?做什么?

从“为什么”开始(德语版本是《永远从问为什么开始》)是一本书的标题,这本书本身很鼓舞人心(不仅仅只是标题具有激励性)。这本书的作者是军事参谋、动机培养专家西蒙·斯涅克(Simon Sinek)。这本书着重从心理层面探讨了领导层如何将企业或者团队引向成功,对领导力的提升给出了良好的建议。这本书的核心主题是所谓的“三步走”,即首先我们要想好,我们为什么要做这件事。其次我们要确定,我们想要如何在企业或者团队内部开展合作。最后我们需要考虑,我们究竟要做些什么,才能梦想成真。

首先我们要想好,我们为什么要做这件事。其次我们要确定,我们想要如何在企业或者团队内部开展合作。最后我们需要考虑,我们究竟要做些什么,才能梦想成真。

围绕这本书的TED演讲在TED大会网站上获得了极高的点击量。演讲时,斯涅克没有使用动画、注解或者插图等辅助手段,他只是在挂图上画了一个圈:

斯涅克将他这个简单的圈称为“人类动机的黄金圈”。“讲故事”专家奇普·希思(Chip Heath)和他的弟弟丹·希思(Dan Heath)估计也会认为这三个圆圈理论具有他们提出的“黏性”特质,属于能够紧紧黏住人心的观点。

关于一家公司如何能够发展成为数据驱动型企业,我们在本书的第三部分会详细讨论。但是此处我们可以先多说一句,这三个同心圆可以被视为数字化战略演进并应用于企业经营的必由之路。

在实施智能数据战略的企业中,这“三步走”战略大体是这样的:

1.为什么

“一个人知道自己为什么而活,就可以忍受任何一种生活。”这句话不是西蒙·斯涅克说的,而是弗里德里希·尼采。

在每一个行业、每一个商业领域以及每一种商业模式实施智能数据战略之初,都需要分析数字化带来的基本挑战。我们在第二部分会详细阐述这一点。在数字化世界里,没有数据是行不通的,思考过并认识到这个道理的人,会即刻去寻找数字化的解决方案,并且他们需要知道这样做的原因。

在技术变革的时代,企业管理也需要考虑创新。在寻求数字化探索的过程中,我们建议摒弃传统的管理方式。众所周知,企业管理层制定的经营目标(虽然也会结合基层的意见)不是泛泛而谈让大家无从下手实施,就是规定得太过具体详细,就好像不这样做就算不上制定方案一样。

在企业管理中,我们建议通过创造性地组织研讨会的形式来进行决策,企业各层面的员工、投资者、客户和经销商都出席这个会议,集体决策出企业未来一年的发展方向、数字化改革和新数据将在各种具体的发展方案中起到何种作用,以及在实现发展目标的过程中,企业已有哪些能力、还需要发展哪些能力等。

传统的企业管理流程就如同一个金字塔周边有许多箭头,它们从上到下或者从下至上指示,在文章中经常用“级联”形容。智能数据解决方案更像是一个背囊。企业首先需要有一个关于发展方向的大致想法,智能数据解决方案明确这一前进方向,并首先要指出企业需要做好哪些准备。

然后,我们就可以进入“第二步”阶段了。

2.如何做

我们希望如何开展合作?这对希望挖掘智能数据分析潜力的企业来说,是最重要的问题。换句话说,这个问题的答案是企业赢得数据分析竞争力的钥匙。

“如何开展合作”这个问题还可以引申出三个子问题:

☆智能数据只有在融入“企业生活”的前提下才能发挥它的全部能量,所以我们需要关注一个企业的企业文化是怎样的。

☆企业文化需要根植于企业的目标体系之中,我们需要关注一个企业的目标体系是怎样的。

☆未来的数字化竞争对企业的人力资源、技术资源都提出了一定的要求,我们需要关注一个企业长短期内是如何培育这些必要资源的。

第一个子问题涉及的核心要素包括:数据好奇心,获取知识、技术和数据的途径和分享机制,员工是否可以参与决策,同事之间的信任,勇于尝试的热情等。这也包括了如果发现某种投入明显不管用时,能够果断地决定放弃再投入。

由此我们会发现,企业的目标体系必须做出相应的改变。我们认识的各行各业中的许多企业,为实现公司战略投入很多。但是,很少有企业会大规模持续地奖励推动企业数字化进程的员工。此外,需要改变一下关注“如何开展合作”问题的时间范围。企业会有一些愿景,可能需要5~10年才能够实现,我们可以将目光从这样的目标中转移出来,关注一下1~3年内需要实施的具体计划。

在涉及资源投入的时候,情况基本是这样的:技术分析手段的供给量是大于需求量的,但是能够给机器设备提出准备指令、输入所需数据,并能将技术、知识转化为生产力的人力资源,却是供不应求。商业智能专家、数据建构师、数据库分析员,以及最具价值的数据科学家会越来越供不应求。智能数据冠军企业高层管理人员在以下两方面不能够过度放权:一是企业技术力量的发展,二是对企业人力资源素质的培养。在数据中会显现出新的竞争优势。如果企业的数字化设备短缺,或者缺少能够操作它们的员工,那么这就是企业高层决策者的责任。

在评估过“数字化冠军是如何成功的”这个问题之后,我们总结出了6点对成功来说至关重要的因素,每一个希望赢得数字化变革的企业都应该具备这6个因素。

3.做什么

成功的智能数据企业会十分谨慎地使用有限的数字化资源。他们一方面避免重复劳动,不支持同质化应用项目,例如不重复支持客户关系管理领域的应用,另一方面,不在不切实际地构建大数据战略幻想方面浪费太多时间。他们做得更多的是结构化、系统性地分析企业的数字化潜力,然后列出发展重点。此处,有一个非常好用的工具,即所谓的数据热图。

热图这个概念在当下很流行。早在1873年的巴黎市议会会议上,热图就作为一种可视化工具首次投入使用,当时巴黎对不同的城区进行了统计调查,热图的应用使统计结果更易于理解。

抓住数字化机遇的核心是要做好两个维度的聚类分析。在智能数据项目中,我们在横轴上系统地归类现有数据,如果有必要,也会去获取易得的其他数据。例如,如果是一家汽车生产企业,那么横轴上的数据就可以分类为车辆数据、客户数据和生产数据。在纵轴上可以显示企业内的哪些人使用了这些数据。通过系统性地对比横纵轴的数据,我们可以相对快地鉴别出哪些数字驱动下的商业案例可以为公司和客户带来更大的增值。此外,热图分析可以使两个数字化项目之间可能的联系变得显而易见,以前可能没人发觉。

原则上,此时人们已经非常清楚应该先做什么了。极有可能先做的事情与“为什么这样做”有关,至少在“怎么做”这个问题被良好地组织起来的情况下是这样。

概率击败偶然

如果我们从认识论层面出发,把所有数字化的事物再彻底地审视一下的话,我们可以得出如下结论:我们并不相信大数据理论家预言的“理论的终结”。当数据全然能够解释这个世界的时候,也并非说理论本身就走到了尽头。在没有意外发生的情况下,我们只能基于过去和现在的数据推测未来。但是生活却不是提前预设好的。在人类走向灭亡的最后一天,非理性行为和偶然事件会让预言家明白,他们也有预测不到的事情。同样,也不会有人能够长期地准确预测汇率和股市行情,但是,人们可以通过建模来探寻短期事件的发展机制。

在没有意外发生的情况下,我们只能基于过去和现在的数据推测未来。但是生活却不是提前预设好的。

反过来说就是,能够意识到预言家能力的有限性并接受这一现实,这也属于智能数据冠军企业的核心竞争力之一。这些企业也明白,预测水平会随着时间的推移得到优化。概率击败偶然不是绝对的,但是在数据分析方面我们会变得越来越智能。

具体到企业经营的日常工作中,是这样的:智能数据分析会利用所有经实践验证过的分析工具,这些分析工具能够协助我们加深对客户的理解,借助这些分析工具,我们可以影响客户的行为。但是,有一些分析工具是不会被选用的,例如那些无法评估其使用效果、对企业人力和财务造成负担的分析工具;还有一些技术分析手段因“自恃过高”也不会被选用,它们认为具有自学习功能的机器可以完成一切,企业原有的人员和模式都已经多余了。

智能数据冠军企业认识到,通过改革成为具有数据分析能力的市场竞争者是一个长期且艰辛的过程。它们也并不会去指望,通过一两个智能数据项目,就能够多快好省地打开全新的、高潜力的商业模式的大门。相反,他们认为,智能地、持续地经营数据是多层面价值创造的“启动程序”,同时,从长期来看,也是巩固既有竞争优势、获得新优势的重要因素之一。欲知详情,请看下一部分。