百度、讯飞、阿里大模型高考作文挑战：都不及格，还有的读不懂题 ...

可爱的馋嘴猫 · 发表于 2023-6-14 01:31:20

又到了一年一度的高考时间，作为 6 月份关注度最高的事情，每年的高考总是能够引来各路大神关注，不少自认文采出众的网友，还会挑战现场写一篇高考作文，然后让大家进行评分。
不过，今年的高考作文整活，似乎因为某些东西的出现而有了不一样的结果。
是的，就是登上热搜的 AI 高考作文，AI 写高考作文在去年其实就已经有公司在尝试，写出来的文章从架构到立意都相当不错，即使是有着多年教学经验的老教师，看了都直接打个高分。
看到这里，或许你已经知道小雷想要整什么活了。没错，作为 AI 测试大师的小雷（ID：leitech），决定拿今年的高考作文命题去考考国内的各大 AI，看看大家写的作文水平到底如何？
当然，除了国内的 AI，小雷也找来了一些海外的 AI，看看这些 " 洋和尚 " 遇到中国高考，能不能整出一些新的花样。
废话不多说，让我们直接来看看各家的作文都写得怎么样吧。
在今年的高考作文命题中，上海卷可能是最让学生蒙圈的，上海卷的出题老师非常彻底的贯彻了 " 惜字如金 " 四个字，整个作文命题的描述加起来只有 21 个字：" 一个人乐意去探索陌生世界，仅仅是因为好奇心吗 ? "，作为曾经的高考生，小雷我是最怕遇到这种命题作文的，从网络上的声音来看，大家也是如此。
面对这种只有一句话描述的作文题目，AI 又会如何去解读并回答呢？
先来看看讯飞的星火大模型。

图源：雷科技
一篇标准的讨论文，作为曾经的文科生，小雷表示：" 这个我熟 "，从个人角度而言，讯飞星火给的这篇文章质量是很高的，AI 首先肯定了 " 好奇心 " 是人类探索陌生世界的一大原因，并且对 " 好奇心 " 如何驱动我们去探索未知做出了解释。
然后讯飞星火以此进一步扩展，提出了探索陌生世界并非仅仅是因为好奇心，并且从个人的成长、情感以及精神追求等方面进行解读，最后再用总结点题，我的评价就四个字："有理有据，令人信服"。
唯一的问题是，文章的字数似乎不到 800 字，从 WPS 给出的字数统计来看是 762 个字（加上标点符号），按照审稿规范，估计会扣掉一些分数。
接下来，我们有请通义千问来作答。

与讯飞星火不同，通义千问用了另一个角度来解答命题，在开头同样先对 " 好奇心 " 驱使我们探索未知世界这段话进行了解析，然后再从社交需要、求知欲和探索欲等方面进行解读。
不过，在文章的倒数第二段，或许是出于对提问者的建议，通义千问加入了一段 " 安全提示 "。虽然从内容来说是没有问题的，但是，如果将其作为高考作文来看，倒数第二段就看起来有点突兀了，审稿老师估计也会一脸懵逼，所以，即使前面写得不错，也会因此而扣掉一些分数。
下一个 " 作者 " 是百度的文心一言，看看它又会怎样回答这个问题？

文心一言同样选择以讨论文的形式来撰写作文，当然，这也是目前 AI 最擅长的文章类型。从内容角度来说，文心一言的回答也是十分不错的，但是过多的段落和转折词，使得文章有点像 " 流水账 "。
不过在最后的立意点题上，文心一言给出的回答则更好一些，没有局限于个人层面，而是扩大到对其他个体的思考与包容中，给出了更宏大的立意。
接下来让我们看看 " 洋和尚 " 的表现，首先是谷歌投资的 Claude。

首先从字数上看，Claude 恐怕就没有合格，WPS 的检测结果显示这篇文章的字数为 646，离 800 字还有一些距离。不过，从内容上看，Claude 确实是给出了不同于国产 AI 的解答，它从人类本身出发，以冒险基因和进取精神为核心，解读了人类为什么要探索陌生世界。
从立意上来说，Claude 或许是目前出场的 AI 中最高的，不仅仅是讲到人类，更是将话题拓展到了文明的发展与延续、人类的未来等方面，让人不禁有种 " 不明觉厉 " 的感觉。
不过，考虑到命题更多的是对个体想法的探索，虽然文章内容不错，但是恐怕也拿不到满分或是特别高的分数。
最后，就让我们来看看 ChatGPT 的回答吧，鉴于时间关系，小雷最终是在 New Bing 上得到的答复。

不得不说，New Bing 给出的文章是所有回答中最长的，字数高达 1144 个，考虑到文科答卷的作文答题区大小，恐怕会超出限制，卷面分和文章本身的分数都会因此大打折扣。
至于文章本身，New Bing 选择从人类本身去探讨这个问题，然后分别从求知欲、创造欲、竞争欲、自我实现等方面来讨论人类为什么要探索陌生世界，立意方面也是与 Claude 相似，喜欢从人类角度来思考这个问题。
从这里其实就可以看出海内外生成式 AI 在逻辑上的区别，在面对相同的问题时，海外的 AI 有时候会倾向于从一个更大的层面上去进行解读，而国内的 AI 则更加扣题，选择从个人角度出发进行解读。
我认为两者存在差异的原因主要有两点：一是海外的训练数据与国内的训练数据不同；二是对中文问题的理解不同，国内的中文互联网有着过去历年的高考题目，所以 AI 在看到类似的题目时，会优先与相近的数据进行匹配，最终写出一篇类似于高考作文的成品，而海外的 AI 则是将其看做对 " 人类探索陌生世界 " 问题的解读，所以选择从一个更广泛的角度进行回答。
至于哪个 AI 的文章更好，或许就因人而异了，喜欢科幻、喜欢宏大叙事的读者，或许会更喜欢 " 洋和尚 " 的文章，从个人角度来说的话，国内的 AI 则表现得更好一些。
在本次的高考作文中，北京卷是给出了两个命题，考生可以二选一进行作答，那么对于 AI 来说，它们遇到 " 选择题 " 时，又会给出怎样的回答呢？
首先是讯飞星火。

内容来说是没什么问题的，但是讯飞星火却同时给出了两篇文章，显然是没有意识到题目中的 " 任选一题 " 四个字的含义，而且从字数上看，两篇均为 500 字左右，加起来是满足 700 字以上的要求了，但是单独算得话，全都不及格。
那么通义千问呢？

问题同样存在，一样是写了两篇文章，一样是五百字左右，基本上与讯飞星火犯了一样的错误。

国内三巨头里，目前来看只有文心一言正确理解了题意，从中选择了 " 续航 " 为题目并撰写了一篇文章，单就这一点来说，已经是赢了。但是，具体到文章本身来说，过于简单且字数仅 400+，甚至比讯飞星火和通义千问还少，放到高考里基本上就是不合格的了。
再来看看两个 " 洋和尚 " 表现如何，首先是 Claude。

Claude 也成功理解了题意，并且给出了自己的见解，从字数上来看，居然是目前所有 AI 中最接近的，足足有 625 个字，而且文章也从 " 续航 " 本身的词义，到人生、社会、科技等方面进行了不同的解读，总体而言更具有可读性和连贯性，表现十分不错。
另一方面，New Bing 则是给了我一个 " 惊喜 "。

是的，New Bing 也理解了题意，但是它反过来问我想让它选择回答哪个问题，说实话挺乐的，而在我做出了选择后，New Bing 又给了我一篇 900+ 字数的文章。从文章内容，结构以及字数要求来说，New Bing 是在这个环节中表现最好的（如果忽略掉反问我如何选择的话）。
而且，在测试过程中，New Bing 还会提示 " 正在思考，请等待 " 的回答，然后我足足等了五分钟都没有下文（偷懒是吧？），最终在我的催促下，New Bing 的文章才姗姗来迟，活脱脱上班想摸鱼却被老板抓现行的员工。
AI 写高考作文，虽然本质上是整活，但是也可以侧面反映目前的各个平台的 AI 技术能力如何。从以上两个测试的表现来看，目前国内理解能力最强的应该是文心一言，毕竟是唯一能够理解北京卷题意的 AI，而在文章结构和内容来说，讯飞、文心、通义都差不多，不过讯飞的更像一篇普通作文。
至于海外的 " 洋和尚 "，从表现来看确实是领先国内 AI 平台不少的，至少在提问的理解能力上要高出不少，但是因为缺乏国内中文互联网的训练数据的原因，所有在遇到这些带有 " 中国特色 " 的提问时，会选择从普通提问的角度去解答。
总的来说，目前生成式 AI 还在快速发展，各家都有着独特的优点，同样也存在一些问题，比如对文章的字数要求总是误发正确理解等。但是，考虑到它们诞生的时间，已经是相当恐怖的学习效率了。

马仔长点心 · 发表于 2023-6-14 02:01:36

这篇文章本身文不对题：正文里面哪里说了“都不及格”？

马仔长点心 · 发表于 2023-6-14 02:31:27

这几家哪来的AI？

		自动登录	找回密码
密码			立即注册