来源:倍可亲(backchina.com)
每十年,美国政府都要进行一次人口普查,调查内容是人口的居住情况、工作情况以及语言使用情况等等。
人口普查是一项重要而有意义的工作,但它未必能真正定义被调查者的身份——普通美国人的目标与梦想是什么?他们如何看待自己?所以,最近一次(2010年)的普查结果公布后,艺术家R·卢克·杜布瓦(R. Luke DuBois)决定自己发起一场关于美国的调查,并在TED演讲“透过大数据看美国人”(Insightful human portraits made from data)中讲述了相关内容。
杜布瓦在美国各地的21家交友网站上创建档案、收集数据,并浏览了1900万人的个人资料。为什么要这样做呢?他说,这是为了观察与分析人们是如何描述自己的。
杜布瓦运用了TF-IDF的统计方法,也就是通过计算词频(TF,某一给定词语在该文件中出现的频率)与逆向文件频率(IDF,一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到)的乘积,得到某一地区民众使用的典型词汇,并过滤掉各地通用的不重要词汇。例如,“爱”、“性”等常用词汇会被排除在外,收录的只是最具地方特色的词汇(人名也被排除在外)。
随后,杜布瓦将美国各个城市的名字用关键词加以替换,他的研究项目“更完美的国家”就此诞生了。杜布瓦向我们介绍了更名改姓之后的美国,向我们展示了他总结出的关键词正是美国各地民众灵魂的写照。
华盛顿:心碎之州
西雅图(专题)人有一个常用词——“海湾”,很明显指的是皮吉特湾。不过,这里也有其他关键词比如“漂亮”、“心碎”、“演唱会”和“香烟”。在西雅图恋爱大概也就是这样:他们玩乐队、会抽烟,你到最后总是会心碎。
而在微软总部所在地雷德蒙德,还有一个毫无感情倾向的关键词:“电邮”。
湾区:正能量聚集地
这项调查通过一种有趣的方式研究了美国各地人口的心理。
例如,旧金山(专题)湾区(San Francisco Bay Area,简称湾区,美国加州北部的一个大都会区)出现正能量流行语的频率最高。“灵性”、“创造”、“目标”等词汇都是该地区的关键词,
还有些词汇也非常具有地域特色,如旧金山的关键词是“同性恋”,圣克鲁兹是“自由”,奥克兰是“年轻”。
大家可以从中看出美国各地的发展历程。
好莱坞:如你所想
某些地方的关键词明显得简直让人头疼。
洛杉矶(专题)的关键词是“表演”,其周边地区的关键词也都是“导演”、“金发美女”、“演艺事业”等好莱坞气息浓厚的词汇。
路易斯安那:水的世界
巴吞鲁日(路易斯安那首府)人自认为身材很好,有“曲线美”。而在新奥尔良,人们依旧对飓风卡特里娜心有余悸,十多年过去了,“洪水”仍是大家谈论最多的话题之一。
华盛顿特区:政治之都
首都人民自认很“有趣”,巴尔的摩(马里兰州最大城市)的高频词汇则是“害怕”。
纽约(专题):帝国气概
纽约市的关键词是“现在”。这个词流露出了几分急不可耐,也代表了理想———“我现在只是一个服务员,但我的理想是做一名演员。”
奥尔巴尼(纽约州首府)的关键词是“议会”,罗切斯特是“施乐”——一家垄断该地多年的知名公司。
有些地区的关键词很有趣,比如雪城的是“恐龙”,因为那里最棒的餐厅名叫“恐龙BBQ”。这种情况还不少——关键词并非都是描述性的词汇,也可能是一些俱乐部或者酒吧的名字,代表了人们喜欢去的地方和他们的爱好。
曼哈顿:城市中的优雅部落
在曼哈顿的中城区,比如切尔西,关键词是“时尚”、“创意”,还有“美感”,因为此地有许多美术馆。而在华盛顿广场公园附近的下城区,关键词则是“村声”(杂志)。
不过,曼哈顿的关键词中也出现了一些奇奇怪怪的词汇,比如“懦弱”、“易燃物”,还有“违抗”——当地不止一人在自己的个人资料中使用了这些词。
布鲁克林:潮人区
北布鲁克林是最有意思的几个地方之一,因为其关键词明确体现了当地的文化——“DJ”、“魅力”、“写作”、“连帽衫”、“潮客”和“精神病专家”。
这里还有许多音乐相关的词汇,比如“电音”、“音响”等。
新泽西(专题):优秀的交通网络
新泽西的许多关键词都不出人所料,大西洋城是“木栈道”,特伦顿是“列车”。不过,这里也有许多让人摸不着头脑的词汇。
杜布瓦最后总结道,他做这项调查并不是为了让大家去和自己更名改姓的家乡对号入座,而是想要了解,美国人在试图赢得别人的好感时,会用什么样的词汇来修饰自己。
原文选自:ideas.ted.com
译者:律乃琦