查看原文
其他

李斌、张松松:语言智能时代呼唤语言学理论创新

李斌等 摩登语言学 2023-06-17

来源:《中国社会科学报》2023年3月21日第2614期


语言智能时代呼唤语言学理论创新



ChatGPT等语言智能技术的出现与应用,对语言学、语言教学、写作、出版等领域带来了一定冲击,并引起了不少争议。随着技术公司的不断涌入以及全球用户的不断增加,各种支持和反对的声音也不断出现。脱胎于20世纪初结构语言学的现代语言学已发展百年。面对ChatGPT等语言智能技术的挑战,语言学能否回答机器语言智能带来的问题?如何面对支持与反对的声音?能否指导机器语言智能的发展?语言智能时代的新问题、新挑战,需要语言学通过不懈探索与理论创新进行积极回应。


相关讨论


在关于ChatGPT的有关讨论中,支持的声音至少可以归纳为两种。一是ChatGPT有效推动了大数据和机器学习模型的发展,在资金、人才、技术、应用等方面将吸引到更多资源,或能取得更大的技术进步与突破。在一定程度上可以说,ChatGPT已经在文字层面通过了图灵测试(机器可以像人一样与人对话),这将使越来越多的资源助推这种基于大数据和机器学习的技术发展。二是ChatGPT非常好用,应好好利用。ChatGPT是一个非常方便的工具,通过简单的命令便可生成符合要求的结果。虽然还不够完美,但是可以节约大量的时间与精力。


同时,相关批评和反对的声音大致可归纳为三种。一是ChatGPT不知道自己在做什么。它只是一个基于超大规模语言数据训练出来的模型,并没有多少学习与认知能力,更谈不上思考。有时,它所生成的内容也并不精确,经常张冠李戴,只是看上去表达非常流畅。二是ChatGPT会干扰学校的教学和论文写作等正常秩序。学生们可以使用ChatGPT生成文本来完成作业或撰写论文、读书报告、程序代码等,这可能使很多学生难以接受正常的知识技能训练,从而干扰了正常的教学秩序。三是ChatGPT挑战了传统的语言学、心理学、文艺学等人文学科,也产生了许多知识产权、网络欺诈等相关的法律问题。ChatGPT基本没有用到传统的语言学、心理学的研究成果,而主要依赖于大数据和神经网络模型。对语言学家来说,这是一个非常大的挑战。语言学有着辉煌的历史,对各种语言有着大量的现象描写与规律总结,却没能为ChatGPT这类产品提供理论基础。


理性看待 


语言学家应如何理性对待ChatGPT等语言智能技术带来的冲击?想回答这个问题,还是要回到乔姆斯基20世纪50年代发表的论文《描写语言的三种模型》。在这篇论文里,乔姆斯基指出了马尔科夫模型的问题,认为马尔科夫这种数学模型不足以生成合法的自然语言句子。在将人类儿童与这种经验主义的数学模型进行对比时,乔姆斯基认为,人类儿童一般3岁左右就可以学会说话,但他们并不需要大规模语言数据作为学习基础,只需要较少的样本便可以习得语言。并且,乔姆斯基区分出人类的先天语言习得装置(大脑硬件)和后天的语言习得过程,更加推崇能够生成合法句子的句法研究。在近期的访谈中,乔姆斯基认为,ChatGPT就是基于高科技的在海量的数据上的“剽窃”,追捧ChatGPT就是浪费资源。


马尔科夫模型注重句子内部前后词语之间的接续概率问题。作为基于语言数据的统计学习模型的先驱,该模型早在20世纪初就被提出。但直到20世纪八九十年代,随着计算机对语言数据的大规模存储能力和计算机算力的不断发展,该模型才在语音识别、输入法、词性标注等任务上大放异彩,并在计算语言学领域占据统治地位20年左右。之后,该模型逐渐被其他更好的统计学习模型取代(如最大熵模型、支持向量机、条件随机场等)。2006年以来,基于深度学习的神经网络模型不断取得进步,在语音、图像、文本等领域都取得了非凡的成就。而神经网络模型在20世纪40年代就已被提出。经过60多年,该模型随着计算机软硬件的不断发展而不断进化,效果越来越好,不仅能够生成越来越合法的句子,还可以更好地“理解”人类语言。基于大数据和机器学习的自然语言处理技术,已成为计算语言学和工业界的主流。


ChatGPT也经历了这种进化,此前GPT的1—3代,性能越来越强,不断刷新着语言学家的认知。2018年,GPT-1是在约4.5GB的数据上训练而来,模型的参数约为1.2亿。2020年,GPT-3是在约570GB的语料上学习训练,模型的参数多达1750亿。ChatGPT利用深度学习技术在大规模语言数据上训练出一个大模型,根据用户的提问生成一段回答。在这个过程中,它完成了自然语言的理解和生成两大任务。计算机与人脑不同,难以像人类一样表征、感知和理解意义。所谓的理解和生成,在对话任务中就变成了大模型根据问题来生成回答。从实际效果来看,机器学习的作用类似于人类语言的习得机制,海量数据类似于人类后天的语言习得数据,而大模型则如同人类的语言能力。在可预见的未来,ChatGPT还将不断发展,或可集成语音、图像、视频甚至更多模态的机器感知数据,利用多模态逼近意义的表示与运算,形成不断更新的多模态对话系统乃至更自然、完善的人机交互系统。这种强劲的发展势头,应引起我们的足够重视,理性分析其原理、优势与不足,探讨应对之策。


积极应对


 现在看来,大数据输入+神经网络模型,或可看作人脑之外的另一种语言习得与生成机制。就像人类发明的飞机,飞行不一定需要像鸟儿那样有两只会扇动的翅膀。空气动力学、材料学以及各种发动机等,开辟了航空航天的新世界。这里的主要问题在于,有些新技术并没有脱胎于传统学科。ChatGPT的这种发展路线,是独立于语言学之外的一种技术路径。它本身除了数学基础和软硬件技术之外,并没有建立针对语言的完善理论,就取得了重大进步。对此,我们需要发展出基于这些技术实践的新理论、新方法,语言学理论创新成为当务之急。具体来说,新的语言学理论需要解释三个方面的新问题。


首先,ChatGPT为何在不需要人脑,仅依靠大数据和大算力的条件下就可以取得较好的人机对话效果?换句话说,基于冯·诺依曼结构的计算机与基于神经网络的数学模型,究竟解决了什么样的问题,使ChatGPT能够在一定程度上模仿人类的语言能力。目前来看,这主要依靠机器学习领域的专家和工业界的计算语言学家联合攻关。但在已有的探讨中,他们也非常吃惊ChatGPT的表现,即能够在通用领域(而不只是天气预报等特定领域)取得较好的表现。目前,他们并没有非常清晰的理论体系和理论阐释。这可能需要语言学家的共同参与,厘清ChatGPT之所以比较成功的基本理路。


其次,能否借助ChatGPT的技术,基于大数据来探索人类语言能力的奥秘?目前,ChatGPT的英语能力好于汉语。是否单纯为数据量的问题,还是汉语比英语更难处理?同时,我们也需要进一步考虑这样一个问题:是否可以利用大数据和人工智能方法来研究语言?人类语言的数据量是巨大的,但在古代大部分都无法记录下来。而在21世纪的信息时代,人类的语言,特别是在电子设备上书写的语言文字,每天都在数以亿计地增长。过去,语言学家主要以个案调查的方法,研究语言现象、总结语言规律。今天,互联网上的海量数据,给语言学家提供了非常多的研究资料。这种原始材料规模之巨大,仅靠个人之力是难以卒读和把握的。400多年来,天文学利用望远镜等设备的不断发展观测到海量的天文数据,然后利用计算建模方法不断重构宇宙模型,获得了诸多重要突破。那么,在21世纪,能否借助人工智能和大数据分析技术,帮助语言学家分析和构建人类语言的数学模型?


最后,是否可以研究基于计算机的语言习得理论与方法?超级计算机在短时间内就可以基于海量语言数据进行各种参数训练。随着语言智能技术的发展,我们也许需要区分基于人和基于计算机的两种不同的语言理论。一方面,两相结合可以更好地研究语言的根本属性和规律。另一方面,探索基于机器的语言理论,可以助力人工智能技术迈向更为成熟的语言智能阶段,从而产生面向人类社会的更多更有用的语言智能产品。更重要的是,语言智能技术正在使计算机不断成为人脑之外的新试验田。在人脑上实验有着伦理、法律等诸多因素的限制;而在计算机这块新试验田上,研究人员可以把语言学、心理学、神经科学等学科的种种发现、种种规律、种种数学模型等进行运算和实验,从而使其成为验证和完善理论的重要依据,并助力这些领域的进一步发展。


ChatGPT等语言智能技术的方法及应用,对传统的语言学理论带来了一定挑战,同时也带来了语言学理论创新的契机。海量的真实语言数据、超大规模数据分析与机器学习技术等,都给语言学带来了新的资源与方法,为语言学理论创新提供了重要基础。


(本文系江苏省教育科学“十四五”规划课题“面向人工智能的教学资源新生态构建与实践”(D/2021/01/120)阶段性成果) 


(本文作者:李斌 南京师范大学文学院;张松松 金陵科技学院外国语学院)


责任编辑:张晶



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存