互联网>> 要闻

百度技术沙龙第22期:海量数据挖掘与行为分析

                                                                                   2012-01-1010:13                                    中国信息产业网官方微博

“深刻洞察和理解用户需求”是每一个互联网企业生存和发展的基础,而要达到“洞察”和“理解”就离不开对海量用户进行数据发掘与行为分析。随着社交网络和社会化媒体的掀起,“社交化、社会化”也成为了当今互联网的发展趋势之一。在社交时代,对于广大互联网企业来说,有效的数据挖掘和分析算法不仅可以深度分析用户属性和用户关系,并获取用户的真实反馈,从而在此基础上对产品进行针对性的优化和改进,达到真正满足用户的需求和喜好,最终提升用户的使用体验并增强其对产品的使用黏性。

2012年1月7日,由百度发起的技术沙龙第二十二期在京如期举行。尽管元旦刚过,春节即将来临,但丝毫未能影响工程师们参会的热情,仅通过微博报名的工程师就多达119人。当天,来自国内各大互联网企业的数百位软件工程师围绕“海量用户的数据挖掘与行为分析”这一互联网领域基础却又前沿的话题,进行了深入的探讨和交流。百度网页搜索部用户行为分析方向高级工程师彭滔和人人网Social Graph算法工程师张叶银,分别从“搜索引擎评估与互联网用户行为分析”和“社会化推荐算法在人人网的应用实践”两个维度出发,与广大工程师们就相关领域分享了多年来的经验和体会。

  图:百度技术沙龙持续“爆棚”

据中国互联网信息中心(CNNIC)的报告,搜索引擎已经成为中国互联网的第一大应用。而作为全球最大中文搜索引擎,百度每天响应着来自138个国家和地区的30多亿次请求。基于如此海量且千差万别的用户需求,如何判断一种新的排序算法优劣与否?

彭滔表示,搜索引擎的评估主要与“相关性”以及“快、准、全、新”两个维度有关,其经典的衡量指标是是“DCG”(Discounted cumulative gain)。彭滔颇有新意地以“史前时代、农耕时代、机器时代、X时代”四个时代为喻,介绍百度在互联网不同发展阶段的评估方法。在“史前时代”,百度的评估主要依靠人工,评价结论给出的时间也相对滞后;在“农耕时代”,则“进化”到了众包和百度搜索评测平台(wse,web search evaluation)的方式,主要依靠集体的智慧进行评估;到了“机器时代”,则是直接利用线上实验,验证策略的好坏,主要的方法包括AB testing、Bucket testing等;面对未来的“X时代”,彭滔认为主要将面临“人工评价与AB testing指标存在冲突、短时用户喜好与长期用户成长之间的不同、以及交互与社会化元素的评判等问题。” 彭滔最后强调,“无论是史前时代、农耕时代、机器时代还是X时代,搜索引擎评估的根本原理都没有改变,评估算法最终都是在评估用户的体验。”

(来源:比特网    作者:李群)

相关文章

更多>> 论坛精华                                                                                            通信公社官方微博

更多>> 精彩博文

信息化趋势

产业圈动态

运营业要闻