查看原文
其他

在里昂,使用ChatGPT的学生被老师 "揭穿"

Gouthière 摩登语言学 2023-06-17

ChatGPT使用的人工智能有一个特点,那就是创造出准确的假象。里昂的几名学生就是这样使用它而没有被指控抄袭......但没有成功地骗过他们的老师(Jonathan Raa/NurPhoto via AFP)

里昂大学的残疾研究教师Stéphane Bonvallet曾要求他的学生研究 "欧洲残疾的医疗方法"。当纠正论文的时候,他充满了怀疑。"这不是一个复制和粘贴的问题。但这些论文的结构完全相同,"他告诉《进步报》。"有相同的语法结构。推理是以相同的顺序进行的,具有相同的质量和相同的缺陷。最后,他们都用一个个人的例子来说明,与祖母或祖父有关......" 如果这些副本因此 "不正常",那么老师 "没有立即理解这一切是怎么回事。很明显,这不是[从网站]抄袭。其中一名学生承认,参加课程的14名硕士生中,有一半 "使用过人工智能ChatGPT"。

ChatGPT是一个由OpenAI公司开发的名为GPT-3的 "语言模型 "衍生的应用程序。语言模型是通过对预先存在的文本中的单词分布进行统计分析得出的。在分析过程中,机器识别出某些词总是在其他词之前,而其他词可能被插入:例如,在法语中,"un"、"le "和 "ce "在 "chien "一词之前;形容词 "grand"、"petit "和 "gros "经常出现在这些词之间,而更少出现在它们之后。ChatGPT背后的人工智能(AI)的优势在于它能够推断出回答问题的很长的文本。当涉及到产生计算机代码序列时,其结果特别引人注目--其语言是高度编码化和 "逻辑 "的--但在日常法语中的表现也相当令人印象深刻。

然而,在里昂的案例中,是文本结构的同质性引起了老师的注意。事实上,即使它为同一个问题提供了100个不同的答案,机器也总是遵循或多或少相同的配方,其灵感来自于网上数以千计的模型。

由于这种做法没有被正式禁止,老师决定对作业进行标记。"从一份到另一份,它的价值在10到12.5之间。因此,我给使用ChatGPT的7名学生打了11.75分,"他向《地区日报》解释。不足以赢得学术奖项。因为到目前为止,对于一个特定的主题,这种文本人工智能首先擅长于综合其学习过程中最经常遇到的想法。

准确性的错觉

正如《麻省理工科技评论》专门研究人工智能问题的记者梅丽莎-海基拉(Melissa Heikkilä)在12月中旬观察到的那样,人工智能使用的语言模型的主要特点仍然是 "准确性的错觉"。"它们产生的句子听起来是正确的--它们以正确的顺序使用正确的词汇种类。但人工智能不知道这意味着什么。这些模型[......]不知道什么是正确的或错误的,它们自信地将信息呈现为真实,即使它不是......"

世界各地的一些研究团队正在努力开发能够检测人工智能中文体 "抽搐 "的软件。在2020年发表的一项研究中,隶属于宾夕法尼亚大学和致力于 "深度学习 "的谷歌大脑实验室的一个研究小组观察到,这些文本滥用非人格化的词汇,并使用很少的 "罕见 "词汇(俚语,持续的语言等)。由人工智能产生的文本也是书面的......没有错别字。大学已经使用抄袭检测软件来识别学生作品中对在线文本的 "借用"。正在开发类似的设备来识别人工智能的独特 "风格"。算法已经被训练成可以分别检测出人类和AI写的文本(与GPT、GPT-2或其他语言模型相关联),并被标记为这样。简而言之,AI被要求检测AI。其中一个工具是非常直观的GPT-2输出检测器,它创建于2019年,是 "通过使用GPT-2语言模型,进行负责任的传播 "项目的一部分。

大学已经在使用抄袭检测软件来识别学生作品中对在线文本的 "借用"。正在开发类似的设备来识别人工智能的独特 "风格"。算法已经被训练成可以分别检测人类和AI写的文本(与GPT、GPT-2或其他语言模型相关联),并被标记为这样。简而言之,AI被要求检测AI。在这些工具中,我们可以提到非常直观的GPT-2输出检测器,它创建于2019年,是由OpenAI支持的 "负责任地逐步传播GPT-2 "项目的一部分。但也有Chrome浏览器扩展程序GPTrue or False,由哈佛大学团队与IBM合作开发的Giant Language Model Test Room(GLTR),以及由软件公司Salesforce开发的CTRL-detector。这些工具主要是在英语语料库上开发和评估的,其中一些工具特别有效......只要提议的文本 "完全由人工智能产生",不列颠哥伦比亚大学的人工智能研究员Ganesh Jawahar向CheckNews指出。如果[人工智能]生成的文本随后被学生编辑...... "包括使用自动转述软件,就不再是这种情况了。

"鸡尾酒 "式的检测方法

CheckNews咨询的多位专家也认为,GPT-3模型远远领先于各种检测工具。在一个没有灵感的人写的非原创文本和一个由ChatGPT签署的文本之间,差异变得非常小......Hugging Face的研究员和OpenAI的前雇员Irene Solaiman毫不惊讶地向我们证实,"随着更强大的[语言模型],[检测软件]的准确性会下降",提到了她参与的2019年底进行的评估。然而,她说她 "惊喜地发现GPT-2输出检测器对ChatGPT来说仍然相当有效"(根据Hugging Face的联合创始人之一Julien Chaumond的说法,"自12月1日以来,这个检测工具上有445万独立用户")。1月初,普林斯顿大学的计算机科学学生Edward Tian将一个专门用于ChatGPT的检测器放到网上,名为GPTzero,其性能尚未得到正式评估。

在任何情况下,"没有任何[自动]检测的方法或模型是100%可靠的,"索拉曼说。这就是为什么她 "总是建议使用鸡尾酒式的检测方法,而不仅仅是一种"。例如,重要的是要记住,ChatGPT是在很长一段时间内对大量文本进行的训练。因此,在提到最近的事件时,它就会失败。CheckNews采访的英属哥伦比亚大学的第二位研究员穆罕默德-阿卜杜勒-马吉德指出,"由于人工智能不知道这些最近的事件,我们可以发现--微不足道的--错误判断,比如,'加拿大赢得了2022年世界杯'。" 人工智能以语法正确的方式拼凑出来的词语也可能暴露出对我们世界的物理现实的极度无知(提及距离、持续时间的不可信的数量级)。最后,索拉曼指出,由于模型通过推断哪些术语最有可能接替其他术语来产生文本,"它们有时会陷入一个循环,"产生可疑的重复和冗余。

违反了学术诚信

最近,OpenAI公司证实,它正在研究非常诡秘地改变由其人工智能生成的长序列文本,以构成文本来源的签名--因此也是证明。例如,这可能涉及强迫机器在每十句话的结尾出现一个以相同字母结尾的单词,或者每二十句话出现一个以相同字母开头的单词。一些看似无害的东西,对读者来说是看不见的,但却是完全可以入罪的。

自2023年开始,纽约学校的ChatGPT访问被禁止。"越来越多的教育组织已经开始讨论使用ChatGPT进行学生作业,"穆罕默德-阿卜杜勒-马吉德继续说。"这包括我们自己的大学,UBC,以及其他像华盛顿大学的大学。在这个阶段,大学似乎正在努力采取一种平衡的方法。例如,一些大学正在鼓励他们的教授开始在他们的课程中加入关于使用人工智能工具来完成或自动回答作业的信息。还有一个积极的趋势是,大学正在鼓励教师将有关这些工具的知识纳入课程,等等。"

在艾琳-索拉曼看来,"如果教师没有同意阅读或评分由语言模型生成的论文",这种情况看起来 "像是违反了学术诚信",这一点很明显。然而,如果其使用是透明的,该工具可以在学术界找到一席之地:"关于'大语言模型'是否可以和应该作为一个工具或出版物中的'作者'使用,存在有趣的讨论",她解释说。然而,一些人工智能的产出仍然需要 "人类指导",并且 "需要人类验证"--特别是那些在 "医学和精神或身体健康 "方面。"这些是明显的高风险领域,因为它们直接影响人类的福祉,"Soleiman坚持认为。

关键的批判性思维

"我们能做的最有用的事情之一,"穆罕默德-阿卜杜勒-马吉德说,"是教育用户关于错误信息的问题,以及如何对我们在网上阅读的内容进行批判。这可能是困难的,但这是可能的。在任何情况下,即使开发出识别几代ChatGPT的工具并取得成效,也可能会有新的模式引入。所以这种情况在不久的将来不可能改变,我们作为人类的批判性思维仍将是至关重要的"。

在杂志《l'Ecole des lettres》中,巴黎一所学校的文学教师Marie-Astrid Clair对ChatGPT在教育领域的出现提出了一个有趣的观点。"这样一个工具的存在也许会减少家庭作业的数量,这对我们的学生来说是一个非常不平等的来源,正如你们所知道的,我亲爱的同事们,你们,在晚上或周末,往往是你们孩子的非人工智能。这样一台机器也许会进一步发展给予口头表达、创造力和简洁的地位。它可能会给法语教师带来一时的错觉,即尽管课时减少了,但水平并没有下降。如果学生发现了无可比拟的CNRS/CNRTL在线同义词词典,并为定制一切而感到高兴,情况可能就是这样。这也会迫使学生不把注意力放在技术上,而是放在用合适的词语表达自己的想法上......"

出处:www.liberation.fr

翻译:DeepL

往期:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存