܄

大数据时代,语言学正经历一场“革命”

【数据猿导读】 用数据密集型的范式来研究语言,不但有益于从各种相关中追寻因果,加深对语言与认知关系的认识,进而有助于更好地理解语言的结构模式与演化规律,也有助于推进语言学研究的科学化与国际化

大数据时代,语言学正经历一场“革命”

语言学正在从传统的艺术与人文学科转向现代的认知与生命科学,其研究方法也正在经历从内省法到实验方法的转变。与此同时,正如舍恩伯格在《大数据时代》一书的开篇所说的那样,“大数据正在改变我们的生活以及理解世界的方式”。在这个不断变化、充满数据的世界,语言学家该做什么?怎么做呢?

大数据的价值

大数据时代

语言学是研究语言的本质、结构和发展规律的学科。现代语言学一般认为语言是一个复杂适应系统。这也意味着,我们需要采用研究复杂适应系统的一般方法来研究语言。这对于全面了解人类语言是极为必要的。

从系统的角度研究语言,目前可从以下两方面展开:一是研究语言系统内部各个组成要素之间的关系以及子系统之间的协同关系,二是研究语言系统的整体或涌现特征。

前者是现代计量语言学,特别是协同语言学的主要目标,而采用语言复杂网络方法则有助于发现语言的整体或涌现特征。无论是计量语言学还是复杂网络方法,对研究对象特征进行量化分析都是必不可少的,都属于数据密集型的语言研究。而大数据能够改变人类生活的最重要原因是其为人类的生活“创造了前所未有的可量化的维度”。

从这个意义上说,以量化为主要手段的数据密集型语言研究是符合大数据时代的语言研究精神的。这是因为“大数据”最大的价值并不在于数据本身,而在于如何将数据与知识、社会、文化、行为、人联系在一起,并通过数理统计方法,更科学地发现数据背后隐藏的有关人类认知、行为的模式以及人与社会、自然交互的规律。换言之,对于任何传统方法中缺少量化手段的学科而言,首先可能要解决的是用数据来做什么的问题。如果我们找不到需要用数据解决的问题,也就只剩下大数据时代的美好愿望了。好在语言学中不难发现这样的问题,这可能也从另一方面展现了人类语言所具有的系统特征。

助力语言规律研究

人类语言系统

我们团队也采用数据密集型的研究范式,对人类语言系统的词汇子系统主要特征之间的协同关系进行了研究。词是构成语言系统的基本单位之一。除了以上提及的不规则动词的规则化之外,词还有许多其他的属性,如长度、使用频度、多义的程度、与其他词结合的能力等。根据对人类语言的考察可以得知,一个长词如果其使用频率突然增加,则会很快变短。在现代汉语中,所谓“短”的限值一般大约为3个汉字。这一点,我们很容易从 “美国职业篮球赛”变为“美职篮”,“特立尼达和多巴哥”瞬间变为“特多”等例子看出。词的可计量的属性以及它们之间的关系构成了词汇协同子系统。这些从大规模人类语言材料中得出的统计规律,不仅可以解释人类语言词汇子系统的运作机理,也可以对词汇的演化做出科学的预测。而能否对所研究现象进行解释与预测,是衡量一个研究领域是否科学的重要指标。

对语言的分类以及语言类型的研究,也是语言学家一直以来努力的方向。为了提高语言类型研究的科学化程度,我们在世界上首次提出了从人类语言真实语料(大数据)中提取语言类型指标的方法,用句子中两个具有语法关系的词之间的相对位置(依存方向)解决了语序相对固定语言的分类问题,用复杂网络方法解决了语序相对自由语言的分类问题,推动了语言分类(类型)研究的科学化。这说明,在研究某种语言的过程中所发现的方法与理论也可以用来研究其他人类语言,充分显示了“大数据+专业”的方法的科学性与普适性。

语言学国际化

国际化语言

语言被视为洞察人类天性之窗。这是因为语言是人类认知机制的产物,语言的普遍规律在很大程度上体现了人类的认知规律,而语言多样性则可能反映的是人类社会以及人类所生存的自然环境的多样性。因此,探求语言的普遍性可能有助于发现人类认知的普遍性,而对语言多样性的研究有助于理解语言与社会以及自然的关系。这也是语言学能成为认知科学的核心元素的重要原因之一。然而,长久以来,基于内省的语言学研究虽然有过一些发现与成果,但由于方法与资源的限制,许多语言规律仍需要基于实证的科学验证。大数据在发现语言结构模式以及其与认知规律的关系方面,也可起到重要的作用。

2007年,我们采用20种语言的句法标注(真实)语料库,对于人类语言受认知(工作记忆)约束而产生的词在句中的线性排列规律进行了研究,结果发现,依存距离(两个有句法关系的词之间的线性距离)最小化可能是人类语言的一种普遍特征。2015年麻省理工学院(MIT)的研究团队,采用37种语言进行了类似研究,这项发表于《美国科学院院报》(PNAS)的研究,进一步支持了我们的发现。这些成果不但为探索语言与认知、语言与思维的关系提供了更加坚实的实证基础,也对从语言行为中发现人类的认知规律以及从人类认知的角度解释语言行为具有启示意义。此外,通过语言网络,我们可以更好地对语言系统的整体与涌现特征进行观察与研究,弥补一般系统方法的不足。比如,我们构建了12种斯拉夫语族语言和2种非斯拉夫语言的平行词同现网络,经对比研究表明,复杂网络方法不仅能区别斯拉夫语言和非斯拉夫语言,而且能将斯拉夫语言正确地划入各自的语支。这一数据密集型研究,展现了可揭示语言整体特征的复杂网络方法在语言分类中的优势,从而拓展了复杂网络在人文、社会与生命科学等领域中的应用。

李国杰院士在为《可视化未来》所写的序言中认为:“数据密集型科学研究已上升到与科学实验、理论分析、计算模拟并列的科学研究‘第四范式’……大数据对社会科学的变革意义,与伽利略首次将望远镜指向太空对天文学的意义一样重大。”实践证明,用数据密集型(“大数据+”)的范式来研究语言,不但有益于从各种相关中追寻因果,加深对语言与认知关系的认识,进而有助于更好地理解语言的结构模式与演化规律,也有助于推进语言学研究的科学化与国际化。


来源:社会科学报

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数据”智慧丨数据猿新冠战“疫”公益策划
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数...
张涵诚:大数据招商平台可推动地方供给侧改革
张涵诚:大数据招商平台可推动地方供给侧改革

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部