资深粉丝眼中的WOT2015大数据技术峰会:干货应接不暇

原创
系统 系统运维
11月28、29日,WOT 2015大数据技术峰会的主办方51CTO按照行业领域设置分享专场,我感觉这个做法的体验很好,讲师们的演讲水平真心不错。本文是我的分享笔记,内容主要是基于我本人已有的知识体系的信息增量部分,要么是大神们现场讲到,但没有写到PPT中的关键信息,要么是我认为非常精彩、信息量大的PPT截图。

  引言

  11月28、29日,WOT 2015大数据技术峰会的主办方51CTO按照行业领域设置分享专场,我感觉这个做法的体验很好。在这次大会上我个人对广告、互联网金融、创新、创业几个主题最为感兴趣,完整的专场听下来,感觉很过瘾。

  讲师们的演讲水平真心不错。我印象里前几年参加各种大会时,若能在1天中听到2场有干货的分享,就算是很有收获的了;这次,我感觉听到的分享至少一半以上内容还是很丰富的,而且讲师的素质也很高,让我很有收获。我想达到这种效果的原因无非三种可能:猜测1,大会的高质量与51CTO的团队精细化运营分不开,呵呵!有广告嫌疑;猜测2,最近几年各种大会越来越多,讲师群体整体分享经验自然也越来越丰富,整体水平不断提高;猜测3,我当年太弱了,图样图森破,大师们的演讲我听不懂罢了!

  从这次大会上各路英雄的分享内容来看,广告领域的分享仍然是应用大数据技术的若干领域中深度和广度最突出的。这并不意外,毕竟广告/搜索领域在很多年前使用大数据的能力就已经很成熟了,更是在近些年“大数据”这个字眼被发明之前,Google的三驾马车技术就已经被应用在生产环境,进而才有的 Hadoop这样划时代开源产品的诞生。

  本来是整理我参加大会的笔记,后来收到51CTO组织者岚宇、杨总的盛情邀请,我将这份笔记也分享给大家。笔记内容主要是基于我本人已有的知识体系的信息增量部分,所以很多同学们非常关注的架构图、业务图,如果我已经比较清楚的,我这里没有放出来(PPT下载地址);我分享的信息要么是大神们现场讲到,但没有写到PPT中的关键信息,要么是我认为非常精彩、信息量大的PPT截图。

现在进入正题。前一天赶上飞机晚点,又赶上预订的酒店没有订上,凌晨4点才睡下,早上杨文飞总编开场和李大学先生的分享没有赶上。我听的第一场分享来自国内广告领域的大师级人物刘鹏。

  1.《数据变现与交易的历史与未来》刘鹏,360商业产品首席架构师

  不愧是“负能量”自媒体刘老师,开篇第一页就很“负能量”:)

  刘鹏大神总结的大数据与“非大数据”的区别很到位:

交易核心数据:行为数据

数据采用:全量加工(个人征信、广告、推荐)

洞察:自动化应用(定向广告、客户关系维护)

面向领导与运营:面向微观业务,机器与销售

  我个人非常认同上面3个维度的对比,非常清晰地说明了大数据应用与非大数据应用的区别,比常见的大数据几个“V”要清楚地多。

  关于数据价值,下面这张图讲的很清楚,收益的增量部分则是数据带来的价值。

  数据价值:6000+6000-10000 = 2000

  男性定向广告+女性定向广告 VS 一成不变的展示

  BAT大都是后向变现模式

  现在趋势是程序化交易/原生广告

#p#

  原生广告的场景化,在移动上会有更好的效果

  广告的格局:广告交易+数据加工与交易(如用户标签层面,规模化生产)

  资本的合作,才有数据交易。数据一旦共享出来,就是钱。微信当然不会把数据拿出来喽!

  关于第二定律、第三定律,请见全文PPT。

  目前,数据价值还是被低估的,虽然数据可以卖给2个人,也可以卖给10个人,但竞价会更激烈,某种意义上更多的数据共享是数据价值的贬值。此处有数据定价不合理。如何定价?这是个新的问题。

  数据隐私:PRI是严格不能使用的。如手机、家庭住址。

  用户可以自己屏蔽,但谁都知道真正手动去设置屏蔽的少之又少。

  不能长期保留,2年以上要销毁。数据管理上已经是风险。

  隐私不是怕生人知道,最大的顾虑是被熟人知道。如果恶意的熟人,受到的伤害将会更大。

  刘鹏大师很有行业大师的范儿,还略带些学者的感觉。分享角度高屋建瓴,放在第一天主会场再合适不过了。只是行程有些仓促,刚刚分享完毕就赶去机场了,听众们没能跟大神有充分的线下交流,实在有些可惜。最近他的大作《计算广告》在业内很热,刘鹏大师受到各处的邀请,恐怕会占用大量个人时间吧!

  看到如今,我们互联网的技术大神们可以像明星一样被追捧,这真是件好事。用51CTO熊总的话讲,“这是有史以来,技术人才最好的时代”。

  2.《数据化运营如何创造商业价值》张溪梦,GrowingIO创始人、前LinkedIn分析部高级总监

  张溪梦大神在领英5年时间,经历了领英的年收入从1亿美金提升至50亿美金。

  病毒式的用户注册,以及新客成本是该领域平均新客成本的50%。这些都是数据分析的价值。

  最早期的数据分析支持100位销售,提升对销售工作效率。

  从每位销售人均阅读300个销售线索,用数据分析利器,迅速发现最有价值的Top10给到销售,大幅地提升销售签单的效率。

  从用户属性-用户行为-用户社交信息数据,一步步找到更精准的信息。

  近实时地同时追踪600个KPI,这样大幅地提升网站功能测试的效率。

#p#

  上图的展示方式,是很容易地发现用户信息的变化,推荐!

  全员数据驱动:用户分群后给出分群转化的建议。

  从上面的分享,我们也能感受到以领英为代表的国外公司是非常重视数据指导决策的,更是很依赖充分地使用技术工具提升工作效率。据我的了解,国内以互联网企业为代表,也都不同程度地、越来越深入地使用数据指导运营,企业服务类的工具、SaaS服务也越来越受到资本追捧。

  3.《大数据时代:精益应用性能管理》廖雄杰,听云技术副总裁

  廖总的分享是第一天上午开场各个分享中保留技术气质最多的。

  监控需要跟上产品迭代速度。

  监控应用是比较复杂的事情,基础监控都很通用,很容易。

  上图很好地说清楚了所谓精益化性能管理的思路。

  举个栗子,假如我们需要检验xxoo这个函数的运行效率。

  从插入代码的方式。我们都知道如果需要每个函数都写这样的代码来监控性能,是会被开发人员吐槽吐死的。于是考虑用自动注入监测代码的办法:

  到-javaagent:apm,从main函数/premain函数里加监控代码。

  用agent方式运行,就自动加入了监控代码,更帅的办法是写在JVM内部。

  我的问题是:监控XXOO函数的性能,我们到底是希望执行时间越短越好,还是越长越好呢?哈哈!

  4.《大数据与行为预测模型》刘志军,马上消费金融CDO 原Capital One总监

  马上消费金融尝试3类算法:聚类、预测、分类。其中聚类的主观性太强,实际应用中大多数精力都放在预测方面。

#p#

  窗口时间多少,取决于金融产品的周期,短期还是循环额度、信用卡。长期的产品,就要关注一年内把所有高峰期都算一遍。

  据刘志军大神讲到,美国是提供真实纳税人的信息查询的,每次2元(大概是美元吧!现场没特地说明),这个信息是很真实的,就是太贵了。刘志军大神又讲:我们国内也能查…不过更贵:)

  算法部分,这张图说的很清楚:统计Dtree/NN/SVM/boost/ensemble建模。

  判断模型的标准:相关性、模型稳定性。此处不用多讲了,大神已经把心得都放出来了!

  判断排序相关性的经典算法:见图

  完美模型 vs 不好的模型 见图

  常见问题:样本覆盖、质量不一、缺失值、样本偏差

  刘志军大神的这场分享是这次互联网金融专场中唯一涉及算法的。虽然没有展开,但我们从大神提炼的方法论、推荐的算法模型能够感觉到大神在该领域的功力。如果有哪位同学想进入互联网金融领域做算法相关、模型相关的工作,我强烈推荐这篇分享。如果将其中各个要点了解一二,你就能够很容易忽悠你周围的小伙伴了;如果将各个要点深度吃透,找一份互联网金融的模型研究相关的高薪工作,绝不是难事。

  5.《互联网金融的敏捷数据运营最佳实践》王桐,北京永洪商智科技有限公司副总裁

  敏捷化:当天的需求,当天数据出来

  高性能、自服务

  平台发展早期的数据分析需求:考虑用户全生命周期的数据分析,帮客户把流量/用户量拉上去。

  从渠道引流、到注册、充值、投标、复投。在漏斗中发现问题。

  中期的分析需求:偏运营,财务分析、主题分析。

#p#

  探索式BI是大势所趋,互联网金融的痛点是IT门口高,业务人多,技术人少,数据需求支持不过来。

  痛点切得很准!

  6.《京东金融宙斯Zeus安全防御平台》刘明浩,京东金融高级安全专家

  技术安全 vs 业务安全

  业务安全包括:垃圾账户、撞库扫描、平行权限、活动作弊、钓鱼欺诈。这个分类还是很有意义的。

  阿波罗业务风险地图:容忍->预警->干预。

  比如不同IP不同地区,在同一账号登陆。

  统计下平时用户常在哪个IP下登陆。

  其他系统XSS漏洞

  某个IP从普通用户变成了root用户

  以漏洞为中心,威胁为中心

  京东分享的防御系统业务太敏感毕竟不能深入。讲师能分享到业务架构层面,帮助非该领域的同学们拓展下视野还是不错的。

  7.《麻袋理财大数据平台及金融风险控制实践案例分析》王天青,麻袋理财首席架构师

  科普一下,互联网金融的风险分类:信用、信息、运营、欺诈。

  问题是核心数据开发少,关联度低,价值密度低,需要多个维度。

  平台的数据流架构。大家有没有似曾相识的感觉?这套数据处理流程实在已经成为如今中国互联网的标配了。

#p#

  判断活动是否具有突发性

  信用信息可以来自社交数据,比如认为一类人的信用度基本一致。

  现场还有一种业务结合算法的图,但在公开的PPT中没有放出来。其中提到计算信用的部分,用到了社交数据中的言论信息,还提到使用 topicmodel,计算信用。我对此有个小问题:公开能抓到的数据应该指的是微博微信上的用户言论数据吧!但那上面的每位用户表达的语句大都很短,一方面短语料对计算topic model挑战很大;另一方面短语料中的信息,包括情感信息,就能与人的信用搭上关系么?即使有关联,这种关系又有多强呢?

  8.《大数据金融云的实践分享》郑赟,宜信大数据创新中心研发总监

  宜信每分钟有一个新客户,2000万借贷款每小时。我们貌似可以推测出宜信每年的新客总数了:)

  郑赟(这个字念yun)讲到姨搜-名称的来历:“让阿姨证明你妈是你妈”。

  自有的用户行为收集系统

  获取来自互联网上的数据,建立知识图谱

  数据维度很重要,依靠社交一度关系判断

  智能理财:宜信也有用户推荐

  小插曲:郑赟讲了商通贷的故事,谈到这个产品刚刚上线的时候做算法的同学们都很紧张,因为这支算法团队的同学们之前大都是做推荐系统的,而这款产品高度依赖信用评估,他们在这块经验不算多。呵呵,这时候有哪位同学能猜测出这支算法团队的带头人了么?猜到的同学请举手,要么你是算法领域资深人士,要么你是猎头。

PS:因为干货太多,我们分为两个部分进行推荐。

下半部分文章推荐:某CTO眼中的WOT2015大数据技术峰会:干货应接不暇

  作者简介:

  傅强,2015年年中作为技术合伙人加入九枝兰,为企业提供在线营销的整合投放Saas服务。2006年-2015年任职当当,从工程师、架构师、高级总监到技术副总裁,从技术的维度,见证了中国电商时代的风起云涌。

责任编辑:火凤凰 来源: 51CTO.com
相关推荐

2015-12-07 09:04:17

WOT 2015大数据技术峰会干货

2015-11-30 13:54:11

2015-11-28 13:37:19

2015-12-01 10:51:17

开源51CTO IT技术周刊

2015-12-02 13:19:12

2015-11-29 22:51:50

大数据数据采集WOT

2015-03-18 11:28:06

WOT2015大数据大数据与运维

2016-11-25 14:29:38

WOT2016大数据峰会大数据

2015-04-27 17:27:01

WOT云智慧

2015-11-11 09:49:27

wot舒服分析

2015-10-27 09:52:03

51CTO

2015-11-24 10:22:08

wot360

2015-11-29 18:19:30

R语言大数据建模

2015-03-05 09:42:56

2015-11-13 08:21:02

WOT于际敬大数据

2015-10-20 15:06:42

WOT程序员创业

2015-11-23 16:46:45

WOTMOB兰旭大数据

2015-11-23 11:31:47

wot大数据运营

2015-11-06 08:26:34

体系用户建模微博

2015-10-22 16:41:45

WOT2015大数据O2O
点赞
收藏

51CTO技术栈公众号