制造“爱情工厂”:假如丘比特是个程序员 | 算法密码
►图片来源:pixabay.com
“算法密码”系列第4篇
《知识分子》科学新闻实验室第14篇
撰文 | 叶伟民(《知识分子》科学新闻实验室特邀作者)
责编 | 黄永明
● ● ●
大学时,我有两个很要好的计算机系朋友。我们常常在周五晚上结伴去英语角。
这是一个充满社交默契的地方,人们先三五成群地聊,再过渡到一对一交流,男女搭配是最理想的局面。但事实是,现场总不乏尴尬收场或不欢而散的状况。
老K是我们仨中唯一修过博弈论的。他告诉我们,这事关一个稳定配对的算法——“盖尔—沙普利算法”[1]。如果我们三个男生要在现场和三个女生实现一一匹配,最幸运的情况是每个男生“各”选其一,最糟糕的是每个男生“都”选其一。
绝大多数情况是,三位女生的邀请者数量分别为2、1、0。老K是这样用“盖尔-沙普利算法”来解决配对的——收到2名男生(A和B)邀请的女生(1)选其一(如B),收到1名男生(C)邀请的女生(3)暂时接受,被拒绝的A转而向其第二人选发出邀请,如选女生(2),问题解决;如选女生(3),则再重复开始的流程,直至女生没有收到新的邀请为止。
最后一位接到邀请的女生可能略有不快,但这的确是最优的结果了。“盖尔—沙普利算法”最直观的应用就是高校招生。考生志愿和学校录取标准的最终匹配,相当部分要归功于它。其发明者也获得2012年诺贝尔经济学奖。
虽然在经济领域大放异彩,“盖尔—沙普利算法”的起点却是爱情。源自两位数学家关于“稳定婚姻问题”的争论,它因此也被称为“求婚算法”。
在数学家介入前,思索爱情主要是哲学家和文学家的任务。它在李清照凄婉的诗词中,在罗密欧与朱丽叶相遇的四天里,在梁山伯与祝英台的坟前,也在泰坦尼克号沉入深海的前夜。
人类数千年的讴歌为爱情树立了精神上的传奇,却无法改变现实中婚姻制度的式微。在美国,16岁以上人口的单身比例超50%[2],这既有生活方式和婚姻观念演变的因素,也有社交变异的因素。
科技力量正尝试解决这道超级难题。大数据和算法正取代丘比特之箭,神秘浪漫的情感变得如公式般可计量预测。昔日妙不可言的“缘”,也正被准确制造于一座座永不停息的“爱情工厂”。
爱情这道数学题
五年前,洛杉矶的麦克金雷和北京的阿云都是孤独的人。前者35岁,是加州大学的数学博士,常年待在实验室。23岁的阿云刚离开故乡安徽,孤悬异地,是一名网站编辑。
他们都用OkCupid,一款基于算法的相亲网站。
在婚恋市场上,麦克金雷是个十足的失败者,身材干瘦、头发稀少,相亲网站的收件箱永远是空的。阿云对婚姻倒没有那么着急,她刚迷上攀岩,若能找到一个愿意和她悬在峭壁上看蓝天的伴儿,也是不错。
OkCupid诞生于2004年,创始人是四名哈佛大学数学专业的学生,他们认为一个人能否找到灵魂伴侣,不是宿命,而是数学题。
他们的方法是这样的:让会员们回答15道必答题和若干附加题(最多可以达数百道),内容涵盖政治、宗教、宠物、酒量、债务甚至战争观。比如“宗教/上帝在你的生活中有多重要”,“嫉妒是不是一种健康关系”等。
这些问题不仅需要自己回答,还要为未来伴侣回答,即你希望对方在同一问题上持什么看法,最后还要为这个问题选择“重要度”(从“完全不重要”到“必不可少”共5档,分别对应不同的分数)。
回答的问题越多,用户画像就越清晰。最终OkCupid的算法会自动测算两个会员间的匹配值,100%就是数学意义上的“灵魂伴侣”。
数学博士麦克金雷却栽在了这道“数学题”上,他的答案如“怪咖”般不受欢迎。在有近10万名女性使用OkCupid的洛杉矶,他的匹配结果很可悲。系统为他推荐了数十个“般配”的女性,麦克金雷非常认真地给她们发了自我介绍,但毫无回音。
在北京的阿云,因为是女生,而且很阳光健康,收到的搭讪会多一些,其中一位显示与她匹配度还高达94%。她很高兴,决定回应。对方是个外国人,虽然阿云并不守旧,但没聊几句还是把她吓着了——对方提出玩“Cyber Sex”(网络性爱)。
“这是我最讨厌的类型。”阿云感到被冒犯,“但机器却看好我们。”
人造缘分
人类之爱如神话一般古老,兼具至高的浪漫主义色彩、牺牲精神和穿越时间的永恒之义。甚至宗教诸神,“爱神”也有一席——东方为“月老”,西方则是“维纳斯”。
爱情的本质在“不可知论”中徘徊千年后,现代科学也参与探寻,并诞生了“爱情物质”等理论,即认为爱情是苯基乙胺、多巴胺、去甲肾上腺素等化学物质综合作用的结果。
然而,如何让这种反应发生,也就是让玄而又玄的“缘分”降临,则是概率学的范畴了,这是数学家的领地。2010年,英国数学家彼得·巴克斯按照自己的择偶标准,用“费米估算法”[3]估算出全世界愿意与他交往的女人数量是——26个,与科学家估算的银河系智慧文明的数量(约一万个)相比都少得可怜。
既然自然发生率如此低微,一些聪明的脑袋就着手研究“人造缘分”。早在1963年,两名哈佛大学学生就想到了用计算机帮忙。他们设计了75个问题让调查对象回答,并用一台IBM1401电脑计算出每个人的“最合适”的约会对象。它还有商业模式:拿到对方的联系方式前,每个人需缴纳三美元。
这就是OkCupid等算法相亲应用的雏形。到麦克金雷开始使用的2012年,它已成为全美最受欢迎的约会网站之一,号称每天撮合初次约会近三万次。
这些数字越热闹,麦克金雷就越沮丧。现实中,他才华横溢且经历非凡。9·11发生时,他是世贸中心北塔91层一家公司的职员,只因每天下午两点上班而躲过浩劫。他后来又加入麻省理工以高智商著称的“黑杰克团队”,利用速算能力和团队配合纵横赌场。
一个夏天的凌晨,写着代码的他突然意识到,他一直以己之短搏他人之长,虽不擅搭讪,但擅计算,他就应该像数学家一样去相亲。
“既然任何事情都有最优策略,约会也不例外。”麦克金雷说。
这位数学博士先注册了12个OkCupid账号,并通过一个Python脚本来控制它们。这些账号会自动寻找他的目标(25岁到45岁之间的异性恋和双性恋女性),并抓取她们的公开信息和回答过的问题。
然而,只收集了1000个账号资料后,麦克金雷的账号就接连被封了。OkCupid有防滥用系统,以防止此类数据收割。麦克金雷又编写了一个程序,让这些账号能模拟真人点击鼠标和敲打键盘。这一次他成功骗过系统。
三个星期后,麦克金雷收集了符合其初选条件的两万个姑娘,600万个问题及其答案。
人变成了齿轮
当麦克金雷在他的数据斩获前兴奋不已时,阿云仍为上一次不愉快的配对耿耿于怀,她后来成为一名科技记者,对相亲网站背后的算法问题有了更发自职业的关注。
全球在线约会产业从1990年代中期起步,创办于1995年的Match是最早的试水者。现在,全球在线约会产值已达30亿美元。最大的付费市场在美国,中国的产业规模增长最快,用户数已超2亿人。[4]
技术对人类情感的渗透从未停止。早期,约会平台的模式相对原始,大多基于搜索和标签筛选。尔后,LBS(基于地理位置服务)技术被纳入应用。进入移动互联时代后,算法匹配又渐成主流。
用算法作为婚介驱动,OkCupid不是唯一,类似的还有eHarmony,它出现于更早的2000年。过去17年间,不同算法基础的相亲网站都来争夺市场,还演化出基因匹配、面部识别匹配等看似更酷的玩法。
一款名为“奇缘”的移动应用则走中间路线,保留了邂逅之美。它分析每个人的性格、偏好及社交图谱,当“合适”的匹配对象出现在有效范围内,双方的手机就会发出警报,并通过蓝牙交换信息。
阿云发现了OkCupid还有个博客,内容为用大数据指导人们约会。例如“第一次约会应该提什么问题?”OkCupid的建议是,可以“弯弯绕”地聊一些外围话题,例如“啤酒的味道”——计算显示,喜欢啤酒的人有60%或以上概率拥有更开放的性观念。
随后的一次线下约会,阿云就发现被“套路”了。OkCupid推荐的是一位美国波特兰的男生,经历非常丰富,是个有意思的怪咖。但那些带有性暗示的试探让阿云很不舒服。
“在这个应用里,我感觉人变成了齿轮,微妙的东西变得非常直白。”阿云说,“生命的乐趣在于对未知的好奇,在于生命里的偶遇和惊喜。而这些,我不觉得OkCupid能明白。”
麦克金雷没有这种东方式的浪漫,他仍寄望于他的数学实验。现在,他要从搜集来的两万名女性的600万个问题及答案中寻找某种规律,不断缩小选择范围。他开始尝试不同的算法,当他找到贝尔实验室的“K-Modes算法”时,觉得正是所需。
这个算法最初用作黄豆灾害的原因分析,能够根据数据特征,将研究对象细分为不同类型。他认为人群分类也应同理。果然,两万名异性被分为了七组。这在麦克金雷看来是关键的一步,他为此欣喜若狂。
麦克金雷继续做减法,例如将年龄过大或宗教观不太相符的组别排除,最后剩余两组。一组是25岁左右的女性,大多为音乐家和艺术家(A组);另一组年纪稍大,大多从事编辑或设计师等创造性职业(B组)。他决定都试一试。
此时,算法已经帮他提炼出两个类别里最受欢迎的500个问题。基于对未来婚姻的忠诚原则,他如实回答了这些问题,但让机器帮助他选择重要程度,以提高匹配分数。
他还耍了一点小心思,例如介绍里自称是“数学教授”。较年轻的A组,他用攀岩的照片做头像,B组则是弹吉他的文艺照。最后,他让电脑程序去自动访问这两组女性的账号,对方根据系统提醒就会看到他。
很快,一个前所未有的局面发生在这个情场失败者的面前。他主页的回访量激增,最多时一天能有400人,他的收件箱也涌入很多问候。
“我从来没有见过跟我匹配度这么高的人。”一位女士写道,“我感觉你应该有些故事……”另一个则毫不掩饰地称赞麦克金雷的吸引力:“我想我们会有很多共同点,虽然数学上不是,但其他方面像得惊人。”
“是我找到了你”
麦克金雷终于可以离开实验室。他先到大学体育馆痛痛快快地洗了澡,然后去见这些问候者。他的策略是两组女士交叉见面。
第一位是A组一位具有艺术家气质的设计师,他们共进午餐,礼貌有加,但双方都没动心。第二天他见B组的一位博客写手,可是对方消极阴郁的气质让他很难提起兴趣。到第20次约会时,他发现A组很多人都有纹身,或养中大型犬,他均不能接受。于是,他停止了和A组的约会,专心B组。
但情况很糟糕。一直到约会了55人,愿意见第二面的人才有3个,见第三次面的才1个。麦克金雷感觉很不好,开始怀疑自己的算法,更开始怀疑人生。
远在北京的阿云也有了变化。她将剩余的耐心给了OkCupid上的几个邀约,还真找到了一个男朋友。一开始阿云感觉不错,慢慢却发现对方患有抑郁症。相互痛苦了一段时间后,他们还是分开了。
而且她还发现一个更隐蔽的问题,身边用此类约会软件的朋友都变得玩世不恭。“爱情变得容易了,人们有了问题不是去解决,而是换下一个。”阿云说,“那种感觉好像是:反正池塘里还有这么多鱼,再捞就是。”
阿云不想再陷在这个被算法操控的游戏里了。她决定注销OkCupid账号,永久地。
麦克金雷也几乎要放弃了,他已经约会了87次,仍一无所获。他觉得一切计算手段,在雨果所说的“比天空更弘大”的人类内心面前,如投入深海的细沙,毫无波澜。
然而,一个叫克莉丝汀的亚裔姑娘这时出现了。她发来问候信,说正在加州大学读艺术,希望能找到一个身高180cm左右、长着蓝眼睛的家伙。最后,OkCupid给她推荐了麦克金雷,匹配度91%。
到了见面的时间,当麦克金雷走进双方约好的寿司店,见到克莉丝汀,一种前所未有的电光火石般的感觉在心中迸裂。他们从书籍谈到了音乐,麦克金雷还把他的“爱情算法”和盘托出。
“这事儿确实有些神经质。”克莉丝汀说,“不过我喜欢。”
阿云的另一段故事也开始了。她越来越爱攀岩,也越来越讨厌大城市。2015年,她辞职去了大理,后经朋友介绍,遇到了来自加拿大的攀岩向导德恩。德恩当时很穷,衣服上都是破洞,但他很善良,会毫不犹豫地帮街边小贩捡散落的东西。
像麦克金雷的寿司店奇遇那样,阿云也被一种毫无因由的触电感俘获。他们相爱了,在此后的一年多时间里,他们开着德恩爷爷留下的老爷车,穿越北美,白天攀岩,晚上睡车里,没钱时还要捡超市的过期食品。
“相比我身边的网上情缘,我们会更珍惜彼此。”阿云说,“因为它来得更真实,更强烈,无法像一个虚拟账号那样轻易删除。”
麦克金雷和阿云只是数亿网络相亲人群的缩影。技术和人类情感的关系也进入人文学者的研究列表。虽然互联网婚介已成为一门全球好生意,但学者们的主流观点认为,不必担心爱情像芭比娃娃那样被复制。
“计算机不可能有感情。”麻省理工学院精神分析学家雪莉·特克尔在她的《群体性孤独》一书中说,“我们只有设身处地为对方考虑,通过生老病死、婚丧嫁娶等相同的人类体验建立彼此间的联系,我们的感情才具有真实性。”
在一次媒体采访中,麦克金雷和克莉丝汀也就这个问题争论过。麦克金雷仍为他的算法沾沾自喜,克莉丝汀却不同意,她认为算法只是他们故事的前传,真正的挑战是从相遇之后开始。
“你没有找到我,是我找到了你。”克莉丝汀敲着男友的手肘说。麦克金雷思考良久,最终承认她是对的。
关于作者
叶伟民,媒体人。毕业于兰州大学核物理专业。曾任ZAKER总编辑,《南方周末》特稿编辑、记者。现从事互联网,同时是多家平台的签约作者和写作导师。
注释
[1] 盖尔-沙普利算法,数学家盖尔和沙普利为了寻找一个稳定匹配而设计出的市场机制。该算法的一个关键之处在于,合意的要约不会立即被接受,而是“延迟接受”,直至没有新的要约发出为止,最终达到相对最优最稳定的结果。
[2] 据2014年9月《青年参考》报道。
[3] 费米估算法,也称“费米问题”,即在科学研究中用来做量纲分析、估算和清晰地验证一个假设的估算问题。著名案例如估算芝加哥钢琴调音师的数量,通过分解城市总人口、拥有钢琴家庭比例、调音频次等元素,一步步推导出近似结果。
[4] 数据综合自美国在线统计数据门户Statista及中国市场咨询机构艾瑞。
译名对照表
麦克金雷 Chris·McKinlay
彼得·巴克斯 Peter·Backus
克莉丝汀 Christine Tien Wang
雪莉·特克尔 Sherry·Turkle