上面是大家看到的一套东西,就是我们看到的搜索推荐,以及投放,以及活动的一些页面的东西。这些是我们的上层业务系统。在这里大家没有看到,其实我们在大数据分析领域的一些东西。我这里面没有做强调,其实这一套东西是我们跟传统所不同的。在这上面如果说我们的业务分析,和决策环节放到这里,同样是可行的。统计分析其实跟我们现在大家所具备的,所做的这些事情,其实没有太大的差别,我今天不做太多的介绍。
上面的应用大家看到,结合淘宝体系下的各种业务,可以看到各种应用。如果大家打开天猫的首页,购物结束后看它的帐单,物流的信息,每一个环节,同样两个人做同样的事情,发现里面的东西不一样。可能大家没留意,每个人的东西是不一样的。这是今天阿里所提供的不同的个性化的东西。
其实每一个环节,都会看到它有所不同,这些都是基于大量的数据计算,基于大量的用户行为分析所得到的个性化的用户的需求的匹配。后面我更多的介绍一下应用到哪了?应用到哪?这仅仅是举了一些例子。比如说流量方面,阿里遇到的问题有两种。一个是说我们怎么保证公平性,因为它是一个平台,它是一个市场。更多的是保证它的公平性。另外一个是保证消费者的体验的优化。以及购物时候的确定性。这个时候我们算法要做的事情是非常多的,都是为了两个大的原则,服务我们卖家的时候,我们要保证市场的公平性。服务消费者的时候,更好的优化消费者的体验。
所以我们在这个时候,要做的这些算法,大家可以看到,比如刚才说到的,进入天猫,从打开首页,我们总常用的,从导航览,每个用户看到的不一样。当一个女性用户,每天都在买化妆品的类的一些东西,她可能最先看到的都是以化妆品为主的东西。我们在首页你,你进去各种广告位、资源位的时候,每个人看到的跟他自己是匹配的,这就是流量方面的。
在品牌导购相关的东西的时候,我们除了要解决流量相关问题,还要去引导整个的市场,为我们的业务,为我们整个的产品,或者是平台的定位,以及我们的目标去服务。同样我们还要服务于我们的卖家,我们的品牌商,我们要给我们的品牌商提供工具和平台。让他更好的运营他的用户,他的会员。
刚才提到的个性化里面,还有一些个性化的推荐,从购物环节,一直到交易完,甚至说回来察看我的物流信息各种环节,会给你各种各样的推荐。刚买的东西就被推了,其实是我们的合作伙伴在外部做推荐,没办法掌握所有的信息,他只知道这个用户在关注什么,不知道这个用户买了,他们没有办法做到已购买的生命周期的关系。在淘宝的平台内部,这个问题已经得到了一定的解决。
包括我们的消费者,大家知道我们的消费者在整个的购物环节里面,有各种各样的诉求,同样也有一些消费者,他的诉求是通过交易搞点钱。有各种各样的买家诚信的问题,安全的问题。同样怎么解决诚信、安全的问题?我们也是通过数据的分析,用户行为的挖掘,判定这个用户的行为,是否符合正常人的行为,他的各种行为,是不是具有欺骗,欺诈,作弊的特征。包括阿里提供的一些服务,比如说急速退款。一个信用良好的消费者购物的时候,发现这个商品不是我想要的,我需要退款的时候。这个在以前的流程里面非常长,需要我们的商家反复的确认,提供凭证。过很长的一段时间,商家才把钱给我们。在去年的时候,我们提供了一个急速退款,当我们消费者的信用非常良好的时候,这个过程非常的简单。你提交了你退货的申请,并且已经退货,有平台出钱,把你的钱退回来。商家什么时候退,那是退给平台,这一个时间差由平台承担,平台先出钱。有可能这个时候我们的消费者,其实是在一个虚假的退货请求,我们的卖家不承认,并且举证不合理,这时候就产生了平台的坏账,怎么控制?这时候对我们的算法要求非常高。
这一个东西其实去年一年的坏账,大家都不可相信的低,只有一百多万。一百多万对于大家来说不少钱,但是对于平台来说,我们当时设计这个产品,是准确了五千多万的钱放在那。为消费者这笔坏账,准备了五千多万买单,实际上不需要。通过我们这一套模型和机制,保证我们该销售这个特权权益的人能享受到,这就是我们要做的事情。
在搜索里面同样的道理,当我们搜索同样一个词的时候,大家会看到,下面出来的东西是不太一样的。怎么做到?首先我们怎么去做到它的精准性。这是我们搜索领域研究非常深的一个命题。这是不做介绍,更多的是我们怎么做到个性化的搜索。个性化的搜索挑战,不仅仅是个性化本身,而是我们计算量之大。
首先我提交一个一个搜索的请求,这一个请求我们要去面对的是三千多万的商品。要在120毫秒之内完成,从三千多万的商品里面找到符合你,并且与众不同的商品。这里面经过多少环节?首先我要去找到跟你可能有关系的,在三前里面会找到一个小的。这三千多万里面,会抽出来一定规模的数据拿出来,再去做第二次平台。重新排序,找到跟这个关键词有更好的匹配度的逻辑,找到这个商品的时候,再进行第三次重排。每个人看到的东西跟他自己想要的不一样,我同样搜索手机两个字,我这个用户买东西比较低端,买手机是七八百,另外一个朋友搜索手机,他想买的手机是三千、五千,这个时候如果我们出来的东西要做到这一点,他要调用后台服务非常多的模型,我们的搜索模型加在一起有十多套。而且要在限制的时间内完成,这个挑战非常大。