物流的东西等一会儿,我会拿一个案例给大家看一下。 大家打开淘宝的首页就可以看到这一系列的问题,整个天猫每一个角落都可以看到算法的力量在里面,每一个广告位,我们都可以很清晰的界定他所提供的服务到底是什么?不是大家看到的那么简单,说这个模块,就是一个广告吗?其实它不是广告,首先它是要有关系。关系的强和弱,要解决的问题非常多。比如说我要解决视觉疲劳的问题。你不能每天看到的是同样的东西。第二你要解决跟你有一定确定性的问题。第三要解决的丰富的问题,因为我们是基于消费者行为,消费者的行为,可能有一些消费者在我们的平台行为有限,他买过几件衣服,别的都没买过,我们不会只给他衣服,这时候要解决丰富性的问题。这些品牌是不是放在一起的,这些品牌是不是一个人所要的同一层次的品牌,要解决这些问题。
大家翻开天猫,从首页一直看下去,每个角落,大家都可以看到数据和算法在里面起到的作用。可能不知道这个作用到底怎么实现,但是可以去推敲琢磨一下。在我们购物的时候,不是要看评价吗,这样的一个场景,我们消费者在平均的时候,要决定买一个东西,看有没有说它很不好,看说好,是说什么好,要看很多。当我们觉得这样的一个场景,对消费者的体验已经不是特别优化的时候,去年我们做了这样的一个东西。把消费者所提交的这些评价解析出来,知道这一段话他在说好还是不好,说好说的哪一方面的好,说不好说的哪一方面的不好。去解决这样的东西。消费者在下面看到的时候,就不需要翻来覆去找。他通过很简单的一些交互,点一下其中的一个标签,就可以把要说不好的标签全部拿出来看一下,要解决这样的一个业务需求的时候,其实算法要做的事情,数据要做的事情非常多。
首先我们要把所有的,不同品类他描述的不一样,描述一个手机和描述一个衣服好与不好,肯定用的词不一样。除了纯骂的,别的都不一样。这时候要解决的事情,首先我们要提出来。每个品类要描述好与不好关键词和维度是什么?再把包含这些评价的内容抽出来,再看它到底对哪一个说的。他说的面料,到底这句话说的是面料还是别的,他说起毛,这个要转化。要把含这些信息的东西提炼出来,他可能只说这个衣服起毛了,你要知道他起毛是在说面料。这些东西用非常复杂的文本挖掘的算法把它提炼出来,又知道它起毛是好还是不好。同样一个化妆品,他说用了之后干干的,如果是控油的化妆品,可能是在说好。如果是保湿的,可能在说不好,这就需要解决他情感的方向的问题。把这些做完了,再提炼出来是我们前端看到的功能,这是数据要解决的问题。
这一页其实是在我们产生的企业也会面临到的问题,补货的问题,对于我们的一些传统企业,在电商平台上发展的时候,面临比较大的问题是,因为电商平台的物理的区隔没有了。但是在他去对接这些,交付这些服务的时候,他还存在物理的问题。我一个电视机,或者是一个冰箱。从北京发到广州,大概需要的成本一百块钱左右,我们有多少这种商品他的利润空间能够到100多块钱的成本,其实很难。这个时候对我们企业的挑战,知道广州的消费者我应该在广州,或者是哪个附近建一个仓库,把广州消费者所需要的区域放在那,把北京所需要的东西放在北京。又因为电商平台的不确定性,他的东西放在那里,就成为他永久的库存,这是他的矛盾。作为我们普通的商家,或者是品牌商很难解决这个问题。站在平台上,我们想各种办法,通过我们的数据,把我们不确定的东西,通过数据把它做一个确定性,很好的知道它,把他的东西分解掉,以什么样的频次,放在哪几个仓库里,这是我们需要做的。
350亿大家看上去是一个天文的数字,双11当天大家都在担心阿里的系统是否会崩溃,是不是会出现什么问题?双11当天过去了,350亿成交敲定的时候,大家开始担心。中国的物流,中国的物流行业是否能经得起行业,是否能够对付所提供的能力。不光是业绩的人在担忧,消费者在担忧,我们的商家在担忧,其实我们的物流公司也在担忧。但是他担忧的更早一些,今年四五月份,他们就开始担忧。
今年还好,今年的物流,跟去年比单量增加了一倍,一天1.5亿的包裹,其实我们双11之后连续几天的销量很不错。双11过后那几天,一共产生3.5亿个包裹,那一个礼拜都是一个物流中心里面,有3.5个包裹需要送到消费者手上,对我们的物流企业有多大的挑战?在这个时候,我们在双11之前做了几件事情。一件事情是我们比较传统的手法,跟政府的部门公关。比如说铁路部门,航空部门,给我们储备一些运力做保障。我们的物流公司自己也会购买一些车辆,跟线下的运输体系对接,甚至是购买很多的地放东西。作为数据上做了什么?其实在这个时候,我们其实做了三个版本的预测,预测主要解决两个问题。我告诉我们的物流企业,就是我们对接的主要有十几个物流企业。我告诉他每一个企业,在双11期间你的包裹主要是发生在哪些地方,每个地方有多少辆。你的包裹会送到哪个地方,你要把车停在哪,哪些地方的仓库需要配多一些人。再告诉他你哪条路线上,会最忙。从广州到上海,还是到北京到上海,每个路线大概的包裹量是多少,我们是分解到每一个公司,每一个路线,每一个中转站,每一个网点的业务量。在8月份给他们一个比较促的版本,稍微有一点偏差,事后来看偏差并不大,他们以这个来准备他们的资源。
双11前几天,我们的预测已经接近双11当天的各种指标,这时候我们要做的事情,物流公司按照我们的提前的部署有章法的去执行。我们提供给物流公司的数据,会告诉他们哪个线路是最繁忙,你要加派人手。接下来的包裹,比如11月12号,我会告诉他接下来这几天,所有的包裹压力会流到哪,他已经到派送节点,到中间的一些中转站的节点,会告诉他每一个节点的洪峰来的事情,以及量的大小,他可以提前一天调配的人员,甚至是车辆的部署,这是我们要做的事情。
我今天的的分享主要就到这里,可能仅仅是简单的介绍了一下我们正在做的事,希望大家有一些启发。更多的技术上的一些交流,大家可以加我的联系方式,去沟通和联系。数据的工作是开放和共享的,数据的未来是共享的。也希望大家一起为数据的工作献策献力,更好的把我们数据的价值做出来,作为数据人我们要做的,就是把数据的价值最大化。谢谢大家。