这是整个的数据架构的层面,服务的体系,我刚才也讲到了一些,主要我们做了有几块,一块是数据产品,一块是BI支持。
应用案例,基于前面大数据平台,我们主要做的是离线的数据的处理,和实时流的计算。在这里面我们基于这上面做了一个最主要的,就是数据门户。在全公司统一要看数据进入的入口,供各个高管和部门主管,以及产品运营的同学每天关心自己的KPI,以及关心自己的数据。
第二个就是说我们这三年来,围绕社交网络做了一些模型层面上的一些工作,应用产品大家看到的更多的是微博的数据产品,现在看到的更多是微数据,风云榜,微指数,微报告。还有一些口碑,舆情监控。
模型研究这块,我们主要是集中在五个部分。一个是微博内容的挖掘,一些舆情的分析,一些话题的识别,一些用户在内容上的一些兴趣偏好。关系这块,主要是一些圈子,大家关心跟你是同一兴趣的一个圈子,还是说跟我关系比较相近的一些圈子。
商业上主要是之前在没有阿里和微博合作之前,也有电商的帐号,有一些微博帐号身份的识别。
用户的运营就是我们做的用户日常的策略。再就是分析社交这块,整个的行业我们做的一些模型。基础研究就是支撑模型研究之上的一些工作。这里就不详细介绍了。
举两个例子,主要的是我们做了一个口碑。主要是区分出,因为有很多这样的大V,或者是一些企业微博,或者是政府他们要求做一些监控。去看一下我这个品牌在微博上出现的正面、负面的新闻,或者对我的品牌的影响程度。我们做了一个口碑情感分析的模型,并且在电影,在某一个电影,最近大家对这个电影的评价,大家对电影的倾向是什么程度?这个我可以在后面介绍一下。
元距离,是我们做的一个圈子,主要是刻画这两个人的亲密度。我们这里面做了两层。一层是基于用户的兴趣做的一个圈子,一个是基于用户的社交关系做的一个圈子。用户的兴趣,比如说我们都对同一类的互联网的名人,大V感兴趣,关系主要是看我们的一个互粉,以及社交网络圈。
这里面大家都会去看,就是在微博上的一个数据产品,就是微数据。里面有包括微指数,包括风云榜。政府部门会以这个为标杆,看一些微博上的趋势。
再有一个就是数据的产品,微报告也是我们公司的一个重点。我们本身是一个社交化的媒体公司,跟线下的电视台,以及电视的媒体合作,做了一个调研的合作。
这块是我们战略级的事情,是新浪在做的大数据的另外一块,就是社交兴趣图谱,社交知识图谱。它是在线的服务,同时需要在离线的平台上做一些离线的挖掘。我们的目标主要就是把微博上所有的人、物、电影、图书、音乐、媒体以及所有的对象,我们会找到所有的对象的属性,以及对象与对象的关系,形成庞大的社交网络。分两层,也是一样的,我们主要是在兴趣这一层。
举一个例子,大家可以看到我这有一个简单的展示。在这里面可能有一个人,比如说王某,他可能经常去的地方就是IBS的定位,他可能是在娱乐场所,类似他今天,或者是最近看过一本什么书,听过什么音乐。有可能跟他是同一个公司是哪些人。我们做这个东西的目标就是要支撑整个新浪的微博的一些前端的推荐,大家看到的个性化和商业化。
我们可以举一些例子,我们在旅游频道,新浪微博里面的旅游。旅游我们可能会去刻划、构建用户在旅游当中的生命周期。刚开始可能分五个阶段。第一是制定旅行计划,出行准备,产品的约定,旅行中,旅行结束。 facebook发布了一个文章,上面42%的博文会提到跟旅游相关。大部分的人如果说没有看到,之前没有旅游的意向。但是你看到你的好友,或者是你的朋友,或者是你共同兴趣爱好的人,有这样的一些旅行的分享,或者是一些建议,那么去产生旅行计划的概率非常大。同样新浪微博也是一样的,我们也做了这样的一个旅游的知识图谱。这里面我们讲到,会对人,是因为你的微博上的行为,以及你的关系,你发的博文的内容,你的转发,以及你的品论,我们会从行为关系和内容三个层面上,对用户挖掘,构建每一个用户他属于旅游的哪一个生命阶段。他具备什么样的偏好,比如说他具备哪些消费的偏好。他是自助游,还是自驾游等。
我们可以看到一个简单的对象识别的结果,我会看到一个人,比如说某一个用户,他发表了一篇博文。他可能对一个酒店做一个评价,对一个景点做一个评价,我们可以挖掘出是正面还是负面,我们会对你的朋友,或者说你的社交圈会产生一定的影响。
总体上来讲,这不是我今天讲的主题,这是我们新浪正在大数据这块的东西。这是我们新浪在2010开始到2013年主要做的一些工作。谢谢。