网络快报

大数据时代的总统选举

                                                                                   2012-11-2109:30                                    中国信息产业网官方微博

    奥巴马借助超强的“大数据”能力成功连任,其背后几十人的数据分析与挖掘团队也浮出水面。

    2008年,奥巴马“玩转”网络力量当选美国总统,被誉为首位“网络总统”。而此次,奥巴马又借助超强的“大数据”能力成功连任,其背后几十人的数据分析与挖掘团队也浮出水面。这支团队在2008年就存在并发挥作用。这次,他们更动用了五倍于上届的人员规模,且进行了更大规模与深入的数据挖掘。它帮助奥巴马在获取有效选民、投放广告、募集资金方面起到了不可忽视的作用。《时代》杂志日前刊发报道,揭示了这支团队的部分运作情况。

    今年春季,在幕后支持巴拉克·奥巴马获取胜利的数据处理团队注意到,乔治·克鲁尼在西岸对40岁~49岁的女性粉丝有莫大吸引力,这个群体无疑是为了在好莱坞与克鲁尼或奥巴马共进晚餐而最愿意掏钱的一群人。5月10日,乔治·克鲁尼为奥巴马举办筹资聚会,当晚筹得竞选连任资金1500万美元。

    对公众而言,他们不可能知道这一想法的背后有奥巴马竞选团队对支持者的深度数据挖掘。

    专设首席科学家职位

    从一开始,竞选活动经理Jim Messina已经打算搞一次完全不同的、以度量驱动的竞选活动,该竞选的目的是政治,但是政治直觉可能并不是手段,数据才是。

    “我们要用数据去衡量这场竞选活动中的每一件事情。”他说。在接受这份工作后,他雇用了一个员工规模五倍于2008年竞选时的分析部门,竞选总部还任命Rayid Ghani为“首席科学家”。此人是埃森哲技术实验室的分析性研究带头人,也是知识发现和数据发掘这一应用科学领域的领军人物,其技术常被用于公司处理海量数据发掘客户所好,比如将超市促销的效率最大化等。2011年,Ghani在一次谈话中透露,在政治活动中运用了数据分析这一工具。他说难点在于如何充分利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。现在选民名册与在公开市场上可得的用户资料紧密相连,选民的姓名和住址则与很多资料可以相互参照,从杂志订阅、房屋所有权证明,到狩猎执照、信用积分等都有联系。

    除了这些资料,还有拉票活动、电话银行的来电所提供的信息,以及其他任何与竞选活动相联系并自主提供的私人信息。Ghani和他的团队试图挖掘这一连串数据并预测出选民的选举模式,这将使奥巴马竞选团队的花费更加精确和有效率。 

    迅速筹集10亿美元

    奥巴马团队在2008年对高科技的运用赢得了无数赞美,但其成功也暴露了一个巨大缺陷:数据库太多了。那时,通过奥巴马网站打电话的志愿者用的名单是一份赋闲在家者名单,该名单与在竞选办公室打电话的人所用的名单是不一样的。而动员投票名单也永远不会与资金筹集名单重合。“我们早期意识到,民主党的问题就在于数据库太多了。”一个工作人员说,“数据库之间不彼此碰头。”所以在大选前18个月里,竞选团队就创建了一个单一的巨大系统,可以将从选民、捐献者、田野工作者、消费者数据库,以及“摇摆州”民主党主要选民档案的社会化媒体联系人与手机联系人那里得到的所有数据都聚合到一块。

    这个组合起来的巨大数据并不能直接告诉团队如何发现选民以及获取他们的注意。它允许数据处理团队去做一些测试,看哪些类型的人有可能被某种特定的事情所打动与说服。比如,在办公室里的电话名单上不止是列出对方的名字与号码,还以他们可能被说服的内容以及竞选团队最重要的诉求来排序。决定排序的四分之三因素是基本信息,比如年龄、性别、种族、邻居以及投票记录。选民的消费数据帮助完成这个图谱。“我们可以预测哪些人会在网上捐钱,也可做出模型来看哪些人会用邮件捐。”一个用数据来建预测文档的高级参谋说。

    比如在早期,竞选团队就发现在个人注意力最容易被重新吸纳回来的人群里,2008年曾经退订了竞选邮件的那部分人是首要目标。策略师为特定人群制作相应的测试。他们做测试,看一个本地志愿者打来的电话的效果如何优于一个从非摇摆州(比如加州)志愿者打来的电话。就像Jim Messina说的,在整个竞选活动中,没有数字做支撑的假设绝少存在。

    新的大数据库能让竞选团队筹集到比他们曾预料到的更多的资金。到8月份,奥巴马阵营里的每个人都认为他们达不到10亿美元的筹集目标。“我们曾经有过很大争议,我们甚至不能接受9亿美元的目标。”一个对该过程接触密切的高级官员说。但是,另一个人说:“结果到了夏天的时候,互联网效应爆炸了。”

    网上筹集到的资金极大一部分通过一个复杂的、以度量驱动的电邮营销活动而来。此时,数据收集与分析变得异常重要。很多给支持者的邮件只是测试,它们采用了不同的标题、发送者与信息内容。在春天时,米歇尔·奥巴马的邮件表现得最好。有时,竞选总指挥Messina表现得比副总统拜登好。在很多时候,募集资金最多的人能比欠佳者多10倍。

    芝加哥总部发现,注册了“快速捐献”计划(该计划允许在网上或者通过短信重复捐钱,而无须重新输入信用卡信息)的人,捐出的资金是其他捐献者的4倍。所以该计划被拓展开来,然后以物质刺激加以激励。在10月底时,该计划是竞选团队对支持者传递信息的重要组成部分,第一次捐助者可以得到一个免费的保险杆贴纸。

    精准预测投入产出

    随后,募集资金时所用的数据分析法又被用于拉动选票。分析团队用了四组民调数据,建立了一个关键州的详细图谱。据说,在奥巴马胜出前的一个月内,分析团队对俄亥俄州29000人进行了民调,这是一个巨大的样本,占了该州全部选民的0.5%,这可以让团队深入分析特定人口、地区组织在任何给定时间里的趋势。这是一个巨大的优势:当第一次辩论后民意开始滑落的时候,他们可以去看哪些选民改换了立场,而哪些没有。

    正是这个数据库,帮助竞选团队在10月份激流涌动的时候明确意识到:大部分俄亥俄州人不是奥巴马的支持者,更像是罗姆尼因为9月份的失误而丢掉的支持者。“我们比其他人镇定多了。”一个官员说。民调数据与选民联系人数据每晚都在所有可能想象的场景下被电脑处理、再处理。“我们每天晚上都在运行66000次选举。”一个高级官员说。他描述了计算机如何模拟竞选,以推算出奥巴马在每个“摇摆州”的胜算。“每天早上,我们都会得出数据处理结果,告诉我们赢得这些州的机会在哪里,从而我们去进行资源分配。”

    线上,动员投票的工作首次尝试大规模使用Facebook,以达到上门访问的效果。在竞选的最后几周里,下载了App的人们会收到一些带有他们在摇摆州朋友的图片的信息。该信息告诉他们,只要点击一个按钮,程序则会自动向目标选民发出鼓励,推动他们采取恰当的行动,比如登记参选、早点参选或奔赴投票站。竞选团队发现,通过Facebook上朋友接收到如此信息的人有五分之一会响应,很大程度上是因为这个信息是来自他们认识的人。

    数据也有助于竞选广告的购买。与其依赖于外部媒体顾问来决定广告应该在哪里出现,Messina觉得不如将他的购买决策建立在内部大数据库上。“我们可以通过一些真实的复杂的模型精准定位选民。”一个官员说。结果是,竞选团队买了一些非传统类剧集之间的广告时间,而回避了跟地方新闻挨着的广告时间。奥巴马团队2012年的广告购买比2008年高了多少呢?芝加哥方面有一个数字:“电视广告效率提高了14%……这确保我们是通过广告在与我们可劝服的选民对话。”那位官员说。

    数据同样让团队把总统送往通常在竞选晚期阶段不会去的地方。8月份时,奥巴马决定到社会化新闻网站Reddit去回答问题。许多总统的高级助手甚至不知道这个网站是干吗的。“为什么我们要把巴拉克·奥巴马放在Reddit上?”一个官员问道,“因为一大堆我们的动员目标在Reddit上。”

    数据驱动的决策对奥巴马——这位第44位总统的续任起到了巨大作用,也是研究2012选举的一个关键元素。它也是一个信号——表明华盛顿那些基于直觉与经验决策的竞选人士的优势在急剧下降,取而代之的是数据分析专家与电脑程序员的工作,他们可以在大数据中获取洞察力。正如一位官员所说:“人们坐在一间密室里抽着雪茄,说‘我们总是买《60分钟》’的时代已结束。在政治领域,大数据的时代已经到来。”

(来源:人民邮电报    作者:)

相关文章

更多>> 论坛精华                                                                                            通信公社官方微博

更多>> 精彩博文

信息化趋势

产业圈动态

运营业要闻