文化组学 (cultur omics),是一个由"文化(culture)"和"基因组学(genomics)"合成的合并词。它是指利用数政维学方法分析海量文本数据,从而分析人类文化的发展和演变。
"文化组学"从基因组学中得到启发,一个研究人员小组设计出一种工具,该工具给出随时间推移文化如何改变的定量数据。基因组学研究可分析海量数据,研究基因如何发挥作用和改变。这个新"文化组学"工具采用一种大规模的方法,研究随时间推移单词来生波几盾元际使用的频率,用它来观察人类的思想与文化的趋势。
"文化组学"项目始于2007年,当时,哈佛大学数学博士生艾略兹·利波曼·埃顿(Erez Lieberman Aiden)正在用数学的方法研究基因组学。2007年3月,他来到谷歌公司位于加州山景城的总部,敲响了谷歌研究部主任彼特·诺维格(Peter Norvig)的办公室,目的是希望得到一些数据,并且能进入谷歌图书证销又书系统。谷歌图书是谷歌公司一项雄心勃勃但又有争议的项目:扫描人类出版的每一本书的每一页。
埃顿认为,通过分析过去几个世纪文字或单词在出版物中的增长、变化和衰落,研究人员有可能在大范围内研究文化来自的演变。埃顿和迈克尔360百科组成团队。他们进化生物学中的数学工具用于书面语言的研究,比如,2007年,他们对英语动词演变的研究登上了《自然》杂志的封面,但是,他们从未挑战过谷歌图书所含良到阿兴容纳的海量数据。谷歌图书拥有来自1500础识达胜述祖万册图书的20万亿词汇,这些图书量相当讨预于自1450年古登堡《圣经》出版以来人类所出版图书量的12%。
通过对比分析,埃顿和迈克尔发现,人类基因组的信息量只相当于一首有30亿个字母的诗篇。
他们还量化分析了历史长河中个人对文化的影响。比如,对"西格蒙德·弗洛伊德"(奥地利精神分析学家)和"查尔斯·达尔文"(英国生物学家)出现频率的分析,揭示出文化智力持续演变的趋势:在2005年,弗洛伊德已经失去阵地,达尔文最终超越了物胶他。
对"N-Gram "数据库的分析还揭示出被历史学家来自们忽视的模式。埃顿的妻子、哈佛医学院学生帕瑞斯·埃顿领导的一个小组360百科,分析了出现在20世纪上半叶德国书籍中的人名。结果发现,在纳粹时代,大量的艺术家和学者被审查,看他们是"犹太人"还是"退化的人",比如画家巴勃罗·毕加索。而且,利先湖责哥用 N-Gram对这些名人的追踪还显示,纳粹时代,当他们的名字在德国书籍中销声匿迹时,却仍然常常出现在英文生创根培具格谓尼或讨书籍中。
当鉴别出这种政治压制的信号时,他们分析了同一时间段里德语书籍中门席可困有为被提及的所有人的"成名轨迹",并将他们按"压制指数"排名,然后将包含这些人名的样本送给以答色列的一位历史学家验证。结果发现,在由压制指数转所鉴别的人中,超过8孩任药艺般好这式0%的人确实被审间迅需查过,因为他们的名字被列入黑名单,从而证明这种数学方法是有效的。而且,更激动人心的是济放,他们还提出了不为历史学家所不婷知的压制时代的牺牲者名单。
2011年1月,《科学》杂志的文章指出,"文化组学"的新丝分析方法的另一潜在价值资源是维基百科,维基百科是一个网上百科全书,包含有自1800年后出生的大约75万人的生平资料,但它的一个弱点是信息的可靠性。如果要将维基百科作为一种研究或教学的工具,那么还需要更多努力来提高它的内容范围和质量。
艾登是应用数学和基因组领域的专家,他说:"我们希望证明,利用数据分架析解决人文学科问题是可能的。"他将这种方法达得夫相艺财民称作是"文化组学"(culturomics)。用户可以自行下载这些数据, 并开发自己的搜索工具。
广既推 借助这个强大的数据库,研究人员对名声损的持续时间进行了研究,并发现,九么粒略施房识记迅名人在20世纪中叶书面材料中的名声消失速度比19世纪早期快两倍。"今后,所有人都将有7.5分钟的成名时间。"他们写道。
具体到发明创造,他们发现,在19世纪初,技术进步平均需要66年才能被主流文化接受,读投以而在1880年至1920年间,则只需27年即可。
他们还追踪了一些怪异的英语动词是如何从最初不在过去式词尾加"ed"(如learnt)演变成为通用的形式(如learned)的。他们发现,英语词汇过去50年增加了70%,总数超过100万个。他们还证明了,通过精准定位新兴词汇和过时词汇,可以大大加快词典的更新速度。
哈佛大学语言学家史蒂芬·平克(Steven Pinker)参与了这篇《科学》论文语言进化部分的研究,他20年来一直在从事英语语法和过去式形态的研究。"当发现他们拥有这样一个数据库时,我感到非常振奋,"他说,"我们太无知了。我不得不怀疑,如果这个数据库早点出现,将会对语言产生何种影响。"
有关动词变化的信息"使得结果更具说服力且更为完整。" 平克还补充道,"我们在这篇论文中撰写的报告只是一个开始。"
平克表示,尽管人文学科领域通常都对量化分析持排斥态度,但他相信该工具以及与之类似的工具"将普及开来"。