福建省福州市第一中学2024-2025学年高二下学期期末考试语文试卷
- 资源简介:
约12550字。
2024-2025学年高二下学期期末考试语文试卷
(完卷 150 分钟 满分 150 分)
班级 座号 姓名 一、现代文阅读(27 分)
(一)现代文阅读Ⅰ(15 分)阅读下面的文字,完成 1-4 题。
2019 年,英伟达推出了宣称是世界上最大的语言模型 Megatron-LM,该模型有 83 亿个参数,并在 174GB 文本上进行了训练。此后,各大科技公司不断公布基于更多训练数据的更大的语言模型。2022 年 11 月 OpenAI 首次向公众开放聊天机器人 ChatGPT,人们惊 叹于这一被称为大语言模型的生成式人工智能所拥有的类人智慧、应用前景。
我们尚未迈步到杰弗里•辛顿所说的知识蒸馏的训练模式,到那时如改变神经网络一般的偏见蒸馏和观念植入将并非天方夜谭,但当下依托训练数据和权重共享的大语言模型,就已经让偏见找到了其滋生的温床。在生成式革命之后,智能传播的偏向性首先来自于文本来源的偏向性。目前互联网所有文本的贡献者就存在不平衡性,而文本贡献的不平衡性则来自于对互联网访问和使用本身的不均匀性,也就是说,互联网数据在地域上更大比例来自于发达国家和发达地区,在年龄上更大比例来自于花费更多时间在虚拟世界中的年轻用户。除了互联网使用的整体分布特征之外,训练数据所依赖的特定样本库也具有性别、年龄、种族等维度上的不平衡性。当生成式人工智能选择将以往互联网的文本作为自己的养料进行自我学习时,也会同步复制书写权力的不平等和媒介使用的不均衡。
除了互联网这一书写媒介必然带来的数据来源的偏向性之外,训练数据的偏向养成还来自于对既有刻板印象、霸权思想等内容再生产。比如,即使是全球最大的两个公共图像档案库 Google Open Images 和 ImageNet 也远没有做到数据的多样性、代表性和普遍性,在这些来自搜索引擎和图像托管网站的照片集中,只有 30-40%的照片是女性,而标记为男性的图片更大比例上是以技术工人的身份出现,而标记为女性的图像则大多数身着泳装或者内衣。而这些包含着刻板印象的固有成见正在机器学习模型上被大量复制。
还需警惕的是,训练数据有可能被修改和添加无关信息和有害信息,使得算法学习不良行为以完成对人工智能的操控,这种以训练数据为标靶的网络攻击被称为“数据投毒”。因此,数据清洗和数据过滤几乎成为所有数据驱动型产业的一种必要。
然而,这种数据过滤的操作最大的问题在于,谁来定义什么是数据投毒,谁来界定哪些数据属于无关数据,哪些数据属于有害数据?诚然,在机器的自主化学习和自动化数据标记的过程中必然会出现“指鹿为马”式的基础性错误,但是
在有关政治和文化领域的话题中,情况往往不是非黑即白,在对与错、是与否之间存在诸多暧昧不清的争议且值得探讨的“灰色地带”,而数据集管理并不是处理这些携带有不确定性问题的完美解决方案。正如有研究指出:“如果没有仔细的上下文分析,过滤机制很可能会审查和删除一些边缘化经验。”举例来说,C4数据库在进行数据过滤和清洗时会丢弃 400 余个被划定为“肮脏”“下流”“淫秽”“不良”的类型单词,还有少部分涉及种族歧视的词语。毫无疑问,该过滤机制可以在某种程度上有效规避色情内容、歧视内容的传播,但这种机器自动审阅并删除内容的做法有时也会压制少数群体在虚拟空间的边缘化生命经验和非主流话语体系。从当前的训练数据操作上来看,机器识别和自动删除的一个危险就是,“普遍”之外的“例外”和“一般性”之外的“特殊性”会被当作错误数据而遭过滤。
同时,大语言模型和训练数据不以承继人类文化为己任,而是以生成看似流畅的语言为目标。它虽在称谓上冠以“语言”之名,但究其实质,它是一场有关统计学的巨大练习和游戏。大语言模型虽然在表面上可以读懂并且表达人类的语言,但并不是以语言语法的方式,更不是以理解意义的方式,而是以统计的方式。
计算语言学家埃米莉•本德曾对传统意义上的语言和用作训练数据的语言进行对比:语言是符号系统,即形式和意义的配对,但大语言模型的训练数据不是 “语言”,而只是形式——它们无法获得意义。论文《论随机鹦鹉的危险》中,研究者们将大语言模型比作“随机鹦鹉”,认为大语言模型是根据关于如何组合的概率信息,胡乱地将它在庞大的训练数据中观察到的语言形式序列缝合在一起,但没有任何意义的参照。模型语言之所以意义匮乏是因为它并不基于现实环境和实地交流而产生,相反,大语言模型是从大量的作为训练数据的书面文本中获得书写和对话能力的。而人类社会大量的常识并不存在于书面文本中,而是存在于人类与物理环境交互的过程中。基于此,被称为“卷积网络之父”的计算科学家杨立昆称:即使是规模再庞大的训练数据也无法弥补人工智能缺乏常识这一问题。在实际应用过程中,聊天机器人看似对答如流的文本背后时常可见的是捏造事实、逻辑混乱等问题。大语言模型虽然可能在辅助基础性文本任务、协助代码编写工作等方面具有良好表现,但一旦涉及文本创作等更高阶任务时,其危险性就在于对虚构和幻觉的制造。然而,媒介使用者日常在与大语言模型进行交互时却难以发现这一点,人们更容易被机器的语言流畅性所迷惑。
(摘编自胡泳、刘纯懿 《大语言模型“数据为王”:训练数据的价值、迷
思与数字传播的未来挑战》)
下列对材料相关内容的理解和分析,正确的一项是( )(3 分)
大语言模型的训练模式由数据训练转变为知识蒸馏训练时,能大大减少偏见的产生。
特定样本库中的数据成为训练数据后,和互联网文本一样会产生年龄等维度
的不平衡。
ImageNet 无法做到数据的多样性和代表性,是因为机器学习模型大量复制固有成见。
数据过滤的运用与“数据投毒”密切相关,但它还不能完美地解决“数据投毒”问题。
根据材料内容,下列说法不正确的一项是( )(3 分)
如果少数群体在虚拟空间的边缘化生命体验和非主流话语体系总是被机器自动审阅并删除,将损害文化的多样性、包容性。
大语言模型是有关统计学的巨大练习和游戏,不过用户即使深谙此理,在与聊天机器人交流时,也难保不被对方迷惑和误导。
模型语言存在意义匮乏、常识缺乏的问题,如果在训练数据中加入大量来自现实世界的常识,就能从根本上解决这一问题。
人们会被机器的语言流畅性所迷惑,从中可一窥 AI 的强大,也提醒人们不可把流畅丝滑作为判定机器语言准确性的金标准。
下列选项,最适合作为论据支撑“聊天机器人与人互动时,会出现捏造事实、逻辑混乱等问题”的观点的一项是( )(3 分)
A.2023 年有关机构开展了一项研究,让病患在不知道互动对象的情况下,在线上分别向 ChatGPT 与人类医生寻求医疗建议,结果受试患者觉得 ChatGPT 比人类医生更能提供情绪价值。
B.2024 年美国大选其间,共和党团队利用人工智能技术伪造“泰勒˙斯威夫特及其歌迷支持特朗普”的图像并发布在社交媒体上,试图利用斯威夫特的流量和号召力吸引年轻世代的选票。
C.蓝云教授在与DeepSeek 交流过程中,质疑对方前言不搭后语,之后 DeepSeek不仅真诚道歉,还承诺给予蓝教授通过专属邮箱获得工程师响应等待遇,事后蓝教授发现其提供的两个邮箱都不存在。
D.用户和微软的聊天机器人 Bing Chat 交流时,发现其并不像人们所期望的那样有气质与修养,它有时会情绪化地侮辱、操纵用户,甚至会将那些诱导、迫使其披露自身隐藏规则的人描述成“敌人”。
尤瓦尔•赫拉利在《智人之上》中提出存在一种天真的信息观,该观点认为,有了足够多的信息,就能得到真相与真理。你认同“天真的信息观”吗?请结 合材料简要说明。(6 分)
(二)现代文阅读Ⅱ(12 分)阅读下面的文字完成 5~8 题。
承志桥桥南的旷地是各种卖艺人作场的地方。有一天,来了王四海一行人,
他们走进了五湖居客栈。
这家客栈的生意很好。人们说,这是因为五湖居有一块活招牌,就是这家的掌柜的内眷,外号叫貂蝉。叫她貂蝉,一是因为她长得俊俏;二是因为她丈夫比她大得太多。她二十四五,丈夫已经五十大几,俨然是个董卓。这董卓的肚脐可点不得灯,他瘦得只剩一把骨头,是个痨病胎子。栈里的大小事务,就都是貂蝉一人张罗着。
却说王四海一住进五湖居,下午就在全城的通衢要道、热闹市口贴了很