如何从0到1用数据驱动产品和运营

口述丨桑文锋丨解夏丨盒饭财经(ID:daxiongfan)

本文精选字,邀你30分钟深度阅读

(建议先收藏+转发)

桑文锋

神策数据创始人、CEO。年进入百度,从在“百度知道”做研发,到开始组建并带领团队,从0到1搭建了百度用户日志大数据平台。历任软件工程师,高级软件工程师,项目经理,高级项目经理,技术经理。年离职百度,创办了神策数据。

年,我从浙大研究生毕业后去了百度,之后是在百度做了8年。头一年是在百度知道做研发,从第二年开始做数据相关的事情,这一做就做了十年,在百度干了七年多数据的事情,从0到1去做百度的数据平台。

年4月我从百度离开,开始创业,创业做的事情还是围绕用户行为分析、大数据分析这个方向,可以说这十年时间对数据的认识越来越深刻,因为跟许多企业打交道交流比较多,对它的价值、实际的应用场景,也看得更加清楚一些。

今天我给大家分享的内容,主要是五个方面。

一是数据思维到底是怎么一回事。很多非技术出身的朋友,或者之前没有做过大数据,如果我直接将技术,中间跨度太大了,需要有一个缓冲地带,我希望这个缓冲地带能帮大家导入进去,之后会讲数据分析的价值。我们谈大数据,谈数据分析,到底它有什么样的价值,我给大家聊一下。

之后讲一个相对枯燥一点的内容,但是又是必须要了解的,就是数据分析,它整个环节是怎么一回事,让大家不管是不是要从事这一块,比如你做一个产品经理,做一个业务人员,在跟技术打交道的时候,你知道它是会按照怎么样的思路去做下来。

其次,是围绕两个角度,一个就是我们在做产品的时候,数据怎么帮到你。另外是我们在做运营的时候,数据怎么帮到你,最后,我也会讲一个,结合互联网金融的一个场景,详细讲一个数据分析的例子。

穿越历史看数据思维

首先讲一讲穿越历史看数据思维。我本身是一个工科学生,研究的就是可以说是技术类的东西,同时我又比较喜欢历史,我对历史的东西研究也非常多,特别喜欢的一段是楚汉争霸,到近现代,最近半年我还学了半年党史,看了一段《毛选》。

在这个过程中我发现,数据分析、数据思维、大数据这些词,给人最直观的感受,是这些东西都是从国外来的,中国人自己是不提这些东西的。但不提这些东西,是不是就代表我们在这些历史上就没有人这么运用呢?我研究之后发现不是这么一回事,在中国历史上,其实有很多人,或多或少在用数据帮到他,只是他不会用数据这个词。

咱们先来看一个人物,萧何。刘邦去打败项羽,可以说依赖了三个人,一个是张良给他运筹帷幄、出谋划策,一个是韩信,给他攻城掠地,另外还有一个,就是萧何,给他治理国家,就是真正去帮助他运营的。

当时刘邦是比项羽先打到咸阳的,打到咸阳之后,刘邦手下许多都是无赖,上去之后就是抢金银珠宝去了,但是只有萧何没有干这样的事情,他是直接去了一些丞相御史家里面去,不是去抢金银珠宝,而是去抢书,抢这些材料去了、之前这种税收记录、地图、各地的统计数据,他都拿过去了。拿回去之后呢,搬到了自己军营里面去,之后就开始做研究。

等到后来项羽并没有把刘邦封为秦王,只是把巴蜀、四川那一带给了他。其实这个时候,刘邦是很愤怒的,说按照之前楚怀王的意见,那我应该是做秦王的,你现在只给了我一个边角料的地方,所以就想反了,然后其他人劝不住。

后来萧何就跟他说,你是愿意死呢,还是愿意去做一个巴蜀的王呢?他说这我怎么死了?我跟他拼一拼。他说你跟项羽去打,你的胜算如何?刘邦想一想,不行。然后萧何就给他分析,虽然巴蜀这个地方是比较偏,但是我通过研究这些材料,发现其实这些地方整个税收情况,交税,整个经营情况还是不错的。如果我们在这块,借助这块地方,我能保证带着你一块儿再去打回去。

并且给他提了一个建议,他说我发现汉中这个地方,当时叫南郑,这个地方不大,但是它的战略意义比较厉害,并且这块聚集了很多人,如果我们能拿下这块地方,那对他之后,咱们再往外打,这个就非常重要了。

结果刘邦就拿了一笔钱,金银珠宝,给了张良,张良又拿着一笔钱给了项伯,项伯又拿着这笔钱然后找项羽去了,说项羽,你看本来也没给人家做秦王,现在把南郑那一块地方给他行不行?

然后项羽这一介武夫过去就知道烧杀抢掠,根本不知道每一块地方,到底实际数据情况怎么样的。好了,就把这一块给他了。结果刘邦就几个月之后,明修栈道暗度陈仓打了过去,然后又过了几年,把整个天下都打下来了。其实这就是数据的作用。

萧何就知道要及时去收集这些数据,还要分析这些数据。那这里呢,我就总结了一下,萧何他作为一个当时的丞相,其实他是承担了很大的数据分析师的作用,他在哪些地方做的比较好呢?

我总结有三点:

第一点重视数据收集。不是说等到你要用这个数据的时候,你才知道数据太重要了。而是在开始的时候,每去干一件事情的时候,都在想这里有哪些数据我能收集起来,以备后用。

第二点,重视数据分析。不是等到刘邦说,萧何你过去把这个数分析一下,看看里面有什么结论可以用的,那不是等指导他的时候,他去做。而是刘邦没有指导他之前,他自己就已经在做这些分析了。只是说刘邦正好遇到事的时候,萧何把自己分析的结果给他,直接让他用。

第三点,提供决策指导。不只是说把这些数据呈现给老板就行,你还告诉他该怎么决策,直接提供指导性的建议,并且在这些实际建议中去付诸实践。

后来刘邦跟项羽打的过程,可以说十战十败,许多的时候都是打的光杆司令一个,但没有关系啊,萧何在关中,直接给他运钱,运粮,运兵员,让他源源不断地打过去。但是项羽呢,就是流寇,后面没有根据地,没有人给他搞运营,没有人给他搞数据分析,这个结果就是很不一样的。

“毛邓”数据观

咱再看近一点的,毛泽东很厉害,这个毋庸置疑,大家有没有想过这个问题啊,我因为做数据的,然后我最近半年又因为看了《毛选》,所以我就在思考里面到底有什么共性的关系,然后我就发现一点。

其实毛泽东在数据分析上是非常牛的。有一篇文章,至少80后应该在课本上都学过,就是没有调查,就没有发言权,那是一个节选,就是节选这个《反对本本主义》这篇文章。

这篇文章讲的核心观点,就是你不能拍脑袋,你应该基于调查研究,并且里面说了一句话,就是调查就像十月怀胎,解决问题就像一朝分娩,调查就是解决问题。

他讲的很清楚,许多时候,我们调查研究,做的只要足够充分了,答案有时候很明显了,但是如果你没有做这些事情,前面就来到一个地方,什么情况也不知道就拍脑袋,那这个问题就非常严重了。

大家如果看《毛选》的话能够看到,最开始几篇是讲什么呢,中国社会各阶级分析,湖南农民运动考察报告,还有包括没有加入到毛选里面的,像雄武调查,还有其他的一些调查,就是毛泽东早期的时候,其实做了很多的调查研究。

我问大家一个问题,调查是什么东西?调查其实就是数据收集。我做了这十年数据的事情,抽象来讲,数据分析是很简单的,它只有两个步骤,一个步骤就是数据采集,一个步骤就是数据分析。

其实我们许多时候,我们自己在做决策的时候,大家可以想一想,你是怎么做决策的,你是不是先要去搜集一些情况,了解一些信息,然后再去做决策,就像当年红军打仗一样,前面要攻打一个县城,你带了一个连的兵力,然后不知道前面什么情况,来,兄弟们跟我上,然后冲进去了,结果人家里面驻扎了两个团,一进去,被人家灭了。或者说,你这个看到前面一个城不敢打,说咱们后援部队没来,这个等来了一块去打,结果他实际里面可能没驻扎军队,你这个过去之后,直接就一百多个人,就把县城给拿下了。

所以这里面为什么会有这样的一个不确定性呢,这里面就是数据的差异,你掌握信息,掌握数据,跟你做决策,那是完全不一样的。

其实对于什么是数据,其实数据就是信息,什么是信息呢?现在是信息时代,信息时代是谁开创的?是一个叫香农的人开创的,香农是信息论之父,咱们现在下载一些东西都是Bit,Bit单位是香农定义出来的。他是定义了一个信息的单位,每一个最小信息单位就是一个Bit,然后他对数据做了一个定义,对信息做了一个定义,信息是个什么东西?信息是一种消除不确定性的东西。

比如说,我手里握了一个硬币,我问你,这个是正面朝上还是反面朝上,你没办法判断这个东西,你可能猜50%可能是正面,可能50%是反面。但是呢,如果给你一Bit信息,就是已经告诉你正面朝上了,那你猜的时候%是对的,你直接就拿到这个结论,其实这里面就是有了一Bit的信息,就是因为你掌握了一点信息,然后你对这个事情的判断,要精确了很多,这个就是数据的价值,信息的价值,就是消除不确定性。

我就发现毛泽东有三点做的比较厉害的。

第一点,重视调查,没有调查就没有发言权,就是你不管干什么事,先做一下调查,不要拍脑袋,不要凭感觉去做,不要乱说一通,先调查一下情况。

第二点,就是雾里看花的本领,你收集了很多数据,收集了很多材料,往那儿一摆,然后你看着晕了,看不出门道来,毛泽东就不一样,他就看到里面一些特点。

当时军阀之间混战,今天湘系跟桂系打,明天桂系跟粤系打,打来打去,大家看不出个门道来,但毛泽东他就看到一点,这些打来打去,归根到底,是因为后面的帝国主义不一样,他们之间是争夺利益的,这些打斗的过程,其实是一个军阀割据的局面,只要他们长期打下去,中间就会有夹缝,有夹缝就有革命的根据地,就有地方,所以他就要在夹缝中建立革命根据地,这是他看到的。

等到抗日战争的时候,许多人觉得中国完了,打不过,有些人又觉得我们坚持一下,很快就要胜利了,也不出三个月,半年我们就能胜,都是这样的观点,但毛泽东总结,局面不是这样的,日本国力是很强大的,但是他个头比较小,中国是比较贫弱,但是地方比较大,这个情况,如果它打过来,咱往后退一退,打一打往后退一退,退到一定程度,他的兵力就分散了,分散到一定程度,他就强弩之末了,我们反过来去攻打他,所以这样会是一个比较持久的过程,所以他判断整个趋势是持久战。

这是毛泽东很厉害的一点,就是不只是说他去调查研究去搜集这些情况,你还要看到这些情况,这里面有一些特别的地方,就是值得利用的。

第三点,是革命乐观主义,光有前两点,整个革命过程不是说一帆风顺的,很多时候是负面的信息多,许多时候都不行了,就像林彪觉得红旗到底能扛多久,但是毛泽东看来就是星星之火可以燎原,同样一个事,看法是不一样的。

创业其实也一样,我自己创业这三年,我自己总结都是,好消息一个,坏消息一个,或者十条消息里面八条是坏消息,那你怎么办?不过了吗?这个不是这样的。你要去自己去激励自己,激励自己的团队,就是觉得这种局面一定是可以改变的。

另外,邓小平数据思维也挺牛的。年,解放思想,实事求是,团结一致向前看,他自己写的文章。其实邓小平确定了一点,就是以经济建设为中心。那怎么以经济建设为中心呢?他又提了一个数据指标,GDP,就看这个数,不管黑猫白猫抓住老鼠就是好猫,你只要把这个数弄上去就可以了。

咱看一看效果啊,这是我从国家统计局上面截出来的数据,年的时候GDP,然后到现在年,每年8%往前涨,涨到现在,一年产生的GDP是年的倍,你说这个差距有多大。那现在当然大家觉得这个生活确实比之前好了,你说数据有没有起到作用。

虽然说,当然我们定一个指标,比如污染,或者其他方面带来了问题,但是你如果没定这些指标,你可能什么也没搞起来。

再来说一个小例子,我今年春节的时候,去参加了自己学校一个入学20周年(聚会),我年上高中,当时整个高中是一年差不多入学的有多人,后来学生越来越多,因为我们是最好的县高中了,许多学生都挤到哪儿去。所以它就得扩招,越扩越多,等到最近那几年,一年收个高一学生,这量就很大了,后来一个学校就撑不住了,就开始分成两个学校,新校区和老校区,当时一个是老师分成了两组,然后一个新校一个老校,两个校长挑人,你挑一个老师,我挑一个老师,这样分开了,学生也分成两组,新进来的学生按成绩排名,第一名在A学校,第二名在B学校,第三名在B学校,第四名在A学校,就这样尽量平均的分开。分开之后,等到三年之后,高考看成绩,两边升学率是有比较大的差距的,那说明什么?说明整个两个老师队伍其实是有差距的,你要说学生都是平均分的学生,这是一个很简单的数据分析例子,对比AB测试。

还有我去年8月份的时候,去敦煌参加过一次创业戈壁行,就是三天走一百公里,出发的那一段,就是当年唐僧西天取经出国的那一段,很苦,整个就是戈壁滩,沙漠,在这种环境下,然后每天平均来说30多公里,跑过马拉松的知道这种难度有多难,如果没有跑过的,其实我说很难,但是你很难理解。但是大家在实际在做一些高强度运动的时候,肯定会有感觉,比如说你脚上起泡了,这起泡其实就是一个关键的指标。我当时就做了一下统计分析,一共参加了有个人,我没事的时候,我就找他们问,我说你脚上起了几个泡,第一天起了几个,第二天起了几个,第三天起了几个,左脚起了几个,右脚起了几个,我就拿一个手机,用这个Evernote就记了一下,让大家把这个数据报给我。

我一共差不多问了30多个人,当然没有全部去问,但这里面也看了一些有趣的规律。第一天的时间平均一个人脚上起一个泡,两只脚。第二天的时候呢,平均有两个泡,第三天有三个泡,并且发现呢,右脚起的泡,平均比左脚要多一些,那是不是大家在走路的时候,右脚更容易用力呢,这当然是有可能。其实这就是用数据去说话的一个例子。我们有一个简单的数据,大家看一看,是不是我说强度很大,我用数据说话,你就知道,你自己想一想,你自己走路的时候,什么时候起脚泡了,这个强度就出来了,这就是数据的威力。

前面不管从历史上还是从现代,从我个人,讲了几个例子,大家可能对数据分析能有一个认识,就是数据分析这种东西,不是一个高不可攀的东西,它的威力,可能高到国家层面,也可能低到你生活的琐事里面去,其实数据它是一个普遍存在的东西,而数据这种方法呢,也很简单,数据采集,数据分析,采集的手段,有可能用机器去采,有可能去人工去采,比如去开个调查会也可以去采集,或者我这儿问一下,也可以去采集,但是方法也不重要。

重要的是有你这种数据思维。就是你在这些工作生活里面去,你能去想到,我用数据帮助你,去解答这个问题,它更加科学,更加理性去看待它。

数据分析的价值与现状

接下来我们就看数据分析到底有什么样的价值,然后我们现在都会遇到什么样的问题。其实我在百度,因为整个做数据过程中,又加上创业之后,我自己直接打交道的就有几百家创业公司,打交道的过程中,我就慢慢在总结,数据的价值到底是什么。我总结了两点,一点就是数据去驱动决策,就是帮助你拍板的,我前面讲的这些历史上的这种例子,都是说我有了数据之后,更好好的去做决策。

不管做一些商业决策,产品中战略上的东西,或者说我们做一些产品的迭代,产品设计,这种运营监控的事情,有了数据之后,就帮到你更好的做决策,然后比如销售,一个销售的情况怎么样,我们这种团队管理,都可以去用一些数据来说话。当然更多的就是给人去使用,有数据之后,然后你去拍板,去做这个决定。

但在我看来,这只能发挥数据20%的作用,数据更大一个作用呢,在另外一块,就是数据驱动产品智能,那什么是产品智能,或者说什么是智能,现在人工智能比较火,大家怎么理解什么是智能呢?比如说一个门,它上面装了一个弹簧,我推它一下,它开了,然后它自动又合上去了,这叫不叫一种智能,那什么叫智能呢?其实我总结智能是这么一个模式,首先有了一堆基础数据,然后在这上面套上一定的策略算法,再把结果回馈到产品里面去,这让产品本身具有一种学习能力,就是自我迭代,比如典型的例子就是今日头条。今日头条,因为你看了几个花边新闻,它就专给你推花边新闻,它训练你这个模型,你点的越多,他就知道你对这一类的感兴趣,然后把这些地方就强化,去强化你这个,用专业话讲,去做推荐。这其实就是典型例子。

比如说百度去做竞争广告,你收的东西进来给你匹配感兴趣的广告,这里面都是用了这种学习,这种产品智能的方式。所以这一块,跟前面说的去驱动决策有什么区别就是,一个是给人用的,一个是给机器用的,就像今日头条,不是说后面有个编辑,整天给你匹配到底有什么新闻,发给你,不是这样的,是它是靠机器学习,自动的做这些事情。

因为产品本身引用了数据,里面用到了数据,用到了这种产品智能的价值,那就跟之前我们去看一个新浪新闻、搜狐新闻有本质区别了,这是今日头条现在它的市值,一个估值已经非常高的状态,就是它实实在在的在创造新的价值。

所以这就是说,我们谈这个数据的价值,在我看来就这两点。那我们在想这种大数据时代,这种数据分析,对我来说,对你个人来说,到底有什么用,就是这两点。就是你要考虑的是,在你的工作,在你的生活里边,特别是工作里边,我们怎么能用数据帮助你更好的做决策呢,我们怎么能让我们产品本身,让因为有了数据,价值更加高呢,这就是我们思考的点。然后那我们真正去让一个企业去实现数据驱动,让数据分析真正帮到你,而不是说我这个公司,我能出几张报表,就叫数据驱动的,不是这样的,它是一个逐步渗透的过程。

那么理想状态我觉得是应该,一个是全决策,我们期望再一个企业里面,不管是产品也好,运营也好,市场也好,销售也好,就是各种各样的决策,大家都能用数据去说话,数据去帮到你。

第二点,就是全渠道,那我们现在,线上就不用说了,互联网这些公司,用数据用的比较好,线下其实许多时候我们是用不好的,为什么用不好呢?因为你数据采集条件不具备,许多时候数据搜集不上来,搜集不上来你后面怎么去用呢?当然这种局面,也是在变化的,现在就是各种摄像头技术,我觉得也就两、三年的时间,两、三年之后,可能整个通过图样识别去解决一些,比如咱们今天开这个会,大家不用签到,自动识别一下,就帮大家都统计出来了,这个事都会变得非常容易,只是现在这个技术还没那么成熟。但总之呢,我们会期望,怎么去把线上线下这些所有渠道的这种数据,都能给它收集起来。

第三点,就是说全流程,就是我们期望任何一个企业,其实你都是一系列的环节,你的工作都可以总结为一个流程,比如就拿我们神策数据来说,我们就是前面有市场,去吸引潜在的客户,有销售去做转化,转化之后,我们有交付团队去做交付,后面有客户成功,然后保证客户去用好,它就是一个流程的过程,那我们就需要考虑的是,这个过程各个环节,我们能不能通过数据去帮到你,然后真的让你这一块的业务变得更加的好,这就是说这个数据一个全流程,全决策,全渠道,去实现数据驱动。

但是在实际过程中,在我们真正去做的时候,问题就非常多了,比如说,你只有宏观的数据,然后我们看一些整体的情况,但是等到比如昨天,我们活跃用户数跌了20%,你又会想查,这20%到底是怎么跌下来的,那你就要去看一些细的例子的数据,比如我们按照渠道拆开,按照地域拆开,去看这些数据,但是这个时候如果你没办法去看一些精细化的数据,那你就没办法去决定到底这个问题出在哪里。也有可能是,你不同的部门,市场部门掌握了一部分数据,然后销售部门掌握了一部分数据,或者产品团队掌握了一部分数据,等到你想用的时候,要跟各个部门打交道,去审批数据的权限,等审批到了之后,又发现这个数据ID又没有打通,我们又没办法把这些数据真正的关联到一起去使用,这些都是实实在在的问题,就是它真正在一个企业去落地的时候,挑战还是非常大的。

就像我自己,我在年,最早考虑创业,我觉得我未来要去把中国的数据底子打好,去重构中国互联网的数据根基,经过这三年的努力,如果说开始的时候我觉得离目标有十万里,现在我觉得有十万八千里,就是真正接触下来之后,发现其实这个数据底子比我想的其实要更差一些。然后大家的数据意识呢,还是要更弱一些,这里我们要做的工作就更加多了。

那理想状态是什么?理想状态我总结就是说,真正的自助式的数据分析,就是让业务人员真正去掌握数据,不是说好一个公司里面,老板想看数据的时候,由工程师帮你跑数据,然后其他一个产品经理,运营经理想看数据的时候,就没数据了,或者提了数据之后,过一个月才给他这个结果,你说这个效率是怎么样的。

更好的情况是,我们一个公司里面,业务人员各个角色,大家想用数据的时候,都能够去进行交互式、自助式的就去完成这些事情,那这个效率就要高很多了。

那这个常见的一种模式,我就把它归结为是需求驱动,往往是有人提出来数据分析的需求,有工程师,从杂乱的数据里面想办法去满足需求,然后整个交互过程,整个周期可能花几天、几周才能满足一个需求。

更理想的状态就是我们反着来,就是我们先要有数据基础,应该把数据底子怎么更全更细的做好,去采集好,然后在这个基础上,提出自助式的分析平台,之后让业务人员可以自助式的去完成这些数据分析的事情,从一个几天去满足一个需求,变成几分钟,几秒钟去满足需求,那这个效率就高很多了。

我觉得互联网思维最核心的就是迭代,不是说你做一个东西别人做不到,而是说你比别人迭代的快,就是这个手机,比如现在智能手机,大家会觉得,好像再往前发展,没啥发展了,它发展到一定程度确实会那样,就笔记本电脑,到底发展到哪一步,下一步会是怎么样的。它一种技术发展到一定程度,会进入一个理想状态。

其实整个过程拼的就是谁更快的到那个理想状态去了。人家苹果就是比你安卓的许多手机就是更快一些,那它就能收割,就是在一路迭代的过程中,他能卖五千,你只能卖两千,所以在这个过程里面,那迭代速度快与慢,那就是取决于你整个决策过程,决策的速度是不是够快,整个在产品开发,在做运营活动,这个环节里面,是不是通过这些数据,让你比别人更精确的很快找到下一步该是什么。而不是说花了六个月踩了一个坑,然后又花三个月,又从坑里面爬出来,那你这个速度从哪里来。这里面就是我们通过这种数据驱动的方式,让你效率变得更加高。

数据分析的四个关键环节

前面讲了数据分析的价值,还有我们现在存在的问题,接下来,我们看真正的数据分析,它有哪几个环节,简单来看,数据分析就两个环节,数据采集,数据分析,实际真正在去做数据分析的业务,其实我们会把它进一步去划分,可以划分成四个环节。

第一个环节就是数据采集,我们要把数据搜集上来;第二个环节,就是说我们要对数据建模,你不能说收集过来,就一个仓库,杂乱的把他们都丢进去,等到你用这个数据的时候,发现你找不到这个数据,你想要的东西拿不出来,这个也不行,所以这个时候,我们要对数据进行组织,我们要把它规范好,然后我也方便后面去用;第三个环节就是各种数据分析方法,围绕我们做数据分析的时候,围绕比如说漏斗分析,流程分析,围绕拉新客户,围绕流程客户,围绕其他的运营事情,我们通过数据分析去帮到你,这样的方法可能说有各种各样的。再往上一层就是指标,就是一些数据指标。比如对国家来说GDP就是一个数据指标,我们不能每天都要从源头去看看数据一条一条的剥离一下,看看问题在那儿,这个效率太低了。

更多的时候我们是期望定义几个指标,把它标记出来,然后我们就看着几个指标,如果没问题,那就问题不大。就像开车,前面有个仪表盘,仪表盘里面不亮红灯,开吧,问题不大。这指标就起到这么一个作用,我们把许多事情去简化了,通过几个简单的数,我们就知道整体运营的情况。

那我们先来看这个数据采集,大家都听过大数据,什么是大数据呢,我们怎么理解什么是大数据?其实这个问题,因为我自己就是从事大数据的,经常会有人问我,我回老家,一些亲戚,他们什么硬件、什么软件都不知道,现在又来了一个概念大数据,给我讲讲什么是大数据,你说我怎么跟他讲,讲起来难度是很大的。但是我也一直不断的在总结,也是在看书,包括对我影响比较大的是吴军,吴军讲《浪潮之巅》,讲《硅谷之谜》,讲许多东西。

其实我都在思考数据,什么是大数据,现在我对大数据的理解,两个层面,一个层面是从价值的角度来看,就是我前面讲的数据分析的价值,就是驱动决策和驱动产品智能,那是从价值,如果从物理层面呢,我又把它总结成四个字,就是大,全,细,时,就是数据分析这个概念,不是一个新概念,他可能已经存在几百年了,两三百年肯定是要有的,因为统计学出来的更早。

现在我们提的大数据,跟之前又有什么区别呢?其实就是说底层的数据源变了,其中一点,就是大,那大是什么大,比如说,我们把全国各个地级市今天的苹果价格,这个数收起来,每个地级市收一条,这个数一共加起来,可能两道大小,但是相反,我们如果把内蒙古草原上一台风机,它的振动数我们收集起来,一天可能有50个GB,因为那个数大?可能是内蒙古风机更大,是不是?但是内蒙古风机在我看来,它不是一个典型的大数据场景。因为你只能看到这一个点,就是它的情况你可以了解一下。但是,如果我们全国各个地级市苹果的价格,我们有一车苹果要运到哪儿去,你就可以做一个智能的调动系统了,这个价值就要大很多。

第二点就是说全,就是你许多时间了解一部分数据,你这个答案是有问题的,你可能偏了,你比如说去年的时候美国大选,大选之前,整个结果就是希拉里获胜的概率70%多,川普获胜的概率20%多,整体整个市场,它网上的调研,许多都是这么一个结论,结果出来之后,川普赢了,许多人都在分析问题出在那儿,后来分析其中一个原因就是美国中部许多农民,这些农民是不上网的,但是他们是支持川普的,你光在网上做这些调研,那你能调研准吗?实际情况你没调研准。

在我们实际工作中也是一样的,有时候你就是只看了部分的数据,或者有时候觉得老板不公平,老板就听谁说了两句坏话,就按照他的思路来做了,那这里面问题出在哪,就是因为你没有去把这些数据很全的搜集过来,你只是看了一部分。就像最近我在看一本书,叫《原则》,《原则》里面其实讲了一点概念就是极度求真,极度透明,就是说我们要把这些信息,尽量真实的去搜集起来,实质情况收集起来,尽量让大家共享出来,大家都能看到这个数据,咱再基于这个数据再去做决定,不要自己看了一两条信息,听了片面之词,然后就去做决策了,那种决策是不是就很容易出问题呢。

第三点就是细,比如说,咱们许多都是做业务的,我问大家一个问题,在你们公司业务里面,不同身高的人,他们在消费上有什么区别?你可能回答不了这个问题,为什么呢?因为你没有搜集身高这么一个维度,你后面就没有办法做这个分析了。所以说同样是数据,如果我们掌握的这种维度比较多,我们就可以围绕这个维度进行交叉分析,看里面有什么样的规律,然后去研究他,但是如果没有搜集,你就做不到这一点。

第四点,就是时,时效性,同样一个东西,同样一个数字,现在告诉你,跟两年之后告诉你,结果能一样吗?它是很不一样的。比如说美国发生金融危机了,如果你提前半年知道金融危机,你就可以做空,或者做多一些东西,你是不是就可以利用这个价值。双十一,然后你上午投的广告,很快发现效果不行,马上就调,这个广告不要投了,换其他渠道去投,是不是就省着等到当天晚上12点的时候,你发现咱们其实投错渠道了,这渠道根本没用,这是不是同样是一个数,时效性他这个作用是不一样的。

那这个前面是说数据,我们其实真正去做好数据,就是在考虑,如何去把数据更全更细更加时效性的收集起来,这是一个基础。

那收集数据有什么样的手段?因为我的背景主要还是做线上相关的,线上在数据采集的时候,我总结有三种方式。可能有一些偏技术的,大家简单了解一下就可以了。

一种就是通过可视化埋点,全埋点这种方式去自动去给他收集,然后去填进去,然后让他自动去采,这种方式好处就是不需要工程师过多干预,让这些产品经理,运营经理,自己需要就在上面配就可以了。

但是呢它有它的弊端,弊端就是数据搜的不够细,比如来说右下角有一个提交按纽,左上角有一个打七折,自动搜的时候,不知道打七折是一个有用的东西啊,但是你如果分析的时候,这就是很关键的一个因素。

第二种就是一个代码埋点,我们去在程序里面,客户端也好,服务端也好,在它关键逻辑里面,去嵌入进去,比如来说,用户提交了,提交运费是多少,成本价格是多少,这些都是维度信息,我们都去把它记录下来,记录下来之后,你做分析的时候,就方便了。

并且你许多时候采集数据的时候,从前端采跟后端采它是有差异的,为什么呢?前端容易丢数据,用户进行交互的时候,可能网络断了,网络不通畅,那可能就让你丢失了一页数据,但是另一方面,通过后台,如果这些系统之间,后台服务器之间交货,可能就没这个问题。

第三种就是说我们用工具导,比如来说你数据库里面的数据,比如说你从第三方拿到的数据,或者说你线下人工去输入的数据,其实这些都是有价值的数据,你也要把它引入进来,你就用工具去批量的,实时的把它导入进来,这就是互联网数据收集的方式。

然后当然线下会有一些区别,线下比如说通过摄像头,通过WIFI信号,通过红外线,通过其他等等,通过激光,通过各种方式去搜集,但本质其实没有区别,都是说我们要想一些办法,通过一些手段去把数据收集起来。接下来那就是数据要进行建模,进行组织,那正常来说,其实我们公司业务,你后面都会有一个数据库,数据库里面放了很多张表,表里面比如这个定单表,或者用户表等等,这个表里面存在了很多有价值的信息,那当然我们可以要求业务人员,你学习一下使用数据库吧,你学会使用SQL,怎么去做分析,那这是一种方式,当然这里面对于许多业务人员掌握这个东西太难了,因为你经常变,后台这些数据经常变,变了之后,后面就没办法去用这些东西了,所以我们要对数据进行一个再组织,对于互联网这种产品来说,比较好的一种方式,就是多维数据模型,就是OLAP。

比如说,这个是维度,这一个概念,比如北京,天津,上海,这是城市的维度,他有一些曲直,然后操作系统,他有MACOS、IOS、安卓,它也是一些维度,然后这些维度之间可以交叉,交叉之后呢,可以去看一些指标,比如销售额,注册用户数,这样的话,就是我们不只是说能看一些宏观的数据,还可以看一些精细化的数据,比如来自天津的使用IOS的数据是怎么样的,注册用户数是怎么样的,这样的话,就是说我们又能看宏观的,又能建森林,又能建树木,那对你去做决策,价值就大很多了。

然后对于互联网产品,其实都可以去做一些抽象,比如用户去注册,浏览,下单,支付,收货,这是一个典型的电商的一个产品流程,其他的,互金的等等都是类似的。那在这里面呢,我们就需要去把用户,他进行的这些动作,都给它记录下来,包括一些维度,时间,地域,渠道,商品类别,商品单价等等,这维度都记下来,记下来,就形成下面这种表,一张宽表,有这个维度之后,我们就可以分析了。比如想分析来自江苏省的,然后看这个小米平板的,这些人到底有多少,你就可以灵活,但是如果你这个维度信息没有记录下来,你后面是不是就没办法做这个分析了,这就是说对数据要进行建模,就是进行组织。

之后就是数据分析,其实数据分析这种方法,有各种各样的,毕竟它不断的在扩展。那我们可以去从广度、从深度上来去看。广度上来说,我们是看一个用户的,还是看一组用户的,还是看整个全体用户的,这广度是不一样的。另外是深度不一样,我们是看一个用户的某一类操作,比如浏览操作是怎么样的,还是说我们要看这个序列,它先浏览,再支付,再收货,有这些序列行为的,这又是一种思维方式,就是分析方式。所以就是说我们会有各种各样的分析方法,解决这些各种分析的广度深度问题。

咱看一个简单的例子,这也是之前的一个例子,就是开眼,开眼是一个视频APP,他们当时就发现一点,他们去朋友圈,去


转载请注明:http://www.nylrzx365.com/zlgj/zlgj/15638.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了