文字序顺不响影GPT-4阅读理解，别的大模型都不行

您的位置：
门户
>> 文章精选
>> 业务知识
>> 数据分析与AI
>> 查看资讯

文字序顺不响影GPT-4阅读理解，别的大模型都不行

发表于：2023-12-05 09:21

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：量子位来源：量子位

GPT-4

大模型

　　研表究明，汉字序顺并不定一影阅响读（对于英文来说，则是每一个单词中的字母顺序）。

　　现在，日本东京大学的一项实验发现，这个“定理”居然也适合GPT-4。

　　比如面对这样一段“鬼画符”，几乎里面每一个单词的每一个字母都被打乱：

　　oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

　　但GPT-4居然完美地恢复出了原始句子（红框部分）：

　　原来是一个叫做Jon Rahm的人赢得了2023年美国大师赛（高尔夫）的故事。

　　并且，如果你直接就这段乱码对GPT-4进行提问，它也能先理解再给出正确答案，一点儿也不影响阅读：

　　对此，研究人员感到非常吃惊：

　　按理说乱码单词会对模型的tokenization处理造成严重干扰，GPT-4居然和人类一样不受影响，这有点违反直觉啊。

　　值得一提的是，这项实验也测试了其他大模型，但它们全都挑战失败——有且仅有GPT-4成功。

　　具体怎么说？

　　文字顺序不影响GPT-4阅读

　　为了测试大模型抗文字错乱干扰的能力，作者构建了一个专门的测试基准：Scrambled Bench。

　　它共包含两类任务：

　　一是加扰句子恢复（ScrRec），即测试大模型恢复乱序句子的能力。

　　它的量化指标包括一个叫做恢复率（RR）的东西，可以简单理解为大模型恢复单词的比例。

　　二是加扰问答（ScrQA），测量大模型在上下文材料中的单词被打乱时正确理解并回答问题的能力。

　　由于每个模型本身的能力并不相同，我们不好直接用准确性来评估这一项任务，因此作者在此采用了一个叫做相对性能增益（RPG）的量化指标。

　　具体测试素材则选自三个数据库：

　　一个是RealtimeQA，它每周公布当前LLM不太可能知道的最新消息；

　　第二个是DREAM（Sun et al.，2019），一个基于对话的多项选择阅读综合数据集；

　　最后是AQuARAT，一个需要多步推理才能解决的数学问题数据集。

　　对于每个数据集，作者从中挑出题目，并进行不同程度和类型的干扰，包括：

　　1、随机加扰（RS），即对每一个句子，随机选择一定比例（20%、50%、100%）的单词，对这些单词中的所有字母进行打乱（数字不变）。

　　2、保持每个单词的第一个字母不变，剩下的随意排列（KF）。

　　3、保持每个单词的首字母和最后一个字母不变，剩下的随机打乱（KFL）。

　　参与测试的模型有很多，文章正文主要报告了以下几个：

　　text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。

　　你是否对AI技术感兴趣，想通过掌握AI技术高效完成测试工作？现在私聊恬恬圈/甜甜圈，或识别下方二维码，添加天天圈，回复“AI”，了解更多关于AI的内容↓↓↓

　　本文内容不用于商业目的，如涉及知识产权问题，请权利人联系51Testing小编(021-64471599-8017)，我们将立即处理

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选