人类的英语阅读理解:意群如何加速大脑处理?
什么是意群(Chunking):自然语义单元
意群,顾名思义,就是将语言中具有内在联系的部分组合在一起,形成一个相对独立且完整的语义单元。举个简单的例子,在句子"I love reading books in the cozy library on rainy days."中,"reading books"可以看作是一个意群,它表达了"阅读书籍"这一完整的行为;"in the cozy library"是另一个意群,描绘了阅读发生的场所;"on rainy days"则构成了第三个意群,说明了时间背景。通过这种方式,原本冗长的句子被划分成几个简洁明了的模块,大大降低了理解难度。
人类通过意群实现语言切割
在日常英语阅读中,逐字翻译往往会让人陷入混乱,效率低下。而意群就像一把神奇的剪刀,帮助我们把语言切割成有意义的模块。当我们看到一个长句时,大脑会自动根据语法结构、语义关联以及生活常识等因素,快速地将句子分解成一个个意群。例如,面对句子"The boy who was playing soccer in the park suddenly fell down.",我们不会逐个单词去理解,而是会将其划分为"The boy"(主语意群)、"who was playing soccer in the park"(定语从句意群,修饰主语)、"suddenly fell down"(谓语及宾语意群)。这样一来,我们就能迅速把握句子的核心意思,即"那个在公园踢足球的男孩突然摔倒了",而无需纠结于每个单词的单独含义。
大模型的'意群'实现:Token 与注意力机制
Token:机器的'语言积木'
对于大模型来说,Token 是其处理文本的基础单元。简单来说,Token 就是文本被切分后的最小单位,它可以是一个单词,也可以是一个子词。以 GPT-3 为例,它将"hiking"视为一个 Token,因为这是一个完整的单词;而对于"unhappy",它可能会将其切分为"un"+"happy"两个 Token。这种切分方式类似于我们把积木拆分成一个个小块,方便后续的组合与处理。大模型通过对大量文本的学习,掌握了如何将文本分解成这些 Token,并以此为基础进行后续的分析和生成。
注意力机制:机器的'伪意群'生成
大模型通过注意力机制来动态关联 Token,从而生成类似意群的结构。具体来说,模型会计算每个 Token 之间的权重,将那些高频共现的 Token 组视为关联单元。就好比在一篇关于烹饪的文章中,"salt"(盐)和"pepper"(胡椒)这两个 Token 经常一起出现,模型就会将它们视为一个关联单元,类似于人类眼中的一个'伪意群'。通过这种方式,大模型能够在一定程度上模拟人类对意群的理解,但它的原理与人类是完全不同的。人类是基于语法、语境和常识来划分意群,而大模型则是基于统计概率和 Token 共现的规律。
人类与大模型的意群处理:关键区别与启示
我们先来看一个例子:'你愿意我做女朋友吗',即使没有看得很匆忙,我们也会很快意识到这句话的语序有问题,正确的应该是'你愿意做我的女朋友吗'。这是因为我们在理解时会结合读得懂的单词和意群的方法,同时还会受到常见语境出现概率以及第一个语序逻辑不顺的影响。这说明人类在做英语阅读理解时,利用意群的方法是可行的。

尽管人类和大模型都会处理意群,但它们之间存在着显著的区别。从上表可以看出,人类在划分意群时,依据的是语法、语境和常识,具有很强的主动性和灵活性,能够根据具体情况进行调整。例如,当我们遇到一个有歧义的句子时,可以凭借生活经验和逻辑推理来判断正确的理解方式。而大模型则是基于统计概率和 Token 共现来划分意群,它被动地依赖于训练数据中的模式,缺乏真正的认知和逻辑理解。因此,大模型可能会因为数据偏差而生成一些'合理但不正确'的内容。
启示
- 人类的优势:主动推理、灵活适应新语境。我们能够根据不同的语境和背景,灵活地调整对意群的理解和划分,这是大模型所不具备的。
- 机器的优势:快速处理海量固定模式数据。大模型在处理大量文本数据时表现出色,能够快速识别出常见的模式和规律,为我们提供参考和帮助。
英语学习者的意群训练法:结合人类与大模型的思维
技巧 1:分块阅读训练
练习方法:用斜杠手动分割句子意群。例如,对于句子"The rapid development of technology/has significantly changed/how people communicate.",我们可以先尝试自己划分意群,然后再与标准答案进行对比。通过这种方式,我们可以逐渐培养对意群的敏感度,提高阅读理解能力。



