ChatGPT與GPT-4:人工智能評(píng)估新時(shí)代的開(kāi)啟
ChatGPT與圖靈測(cè)試
ChatGPT已成功通過(guò)圖靈測(cè)試,7月25日,《Nature》雜志在一篇文章中宣布,這標(biāo)志著人工智能評(píng)估領(lǐng)域即將迎來(lái)新的變革。自2022年底OpenAI推出ChatGPT以來(lái),人工智能技術(shù)便在全球范圍內(nèi)掀起了一場(chǎng)革命性的風(fēng)潮。這場(chǎng)風(fēng)潮的強(qiáng)勁勢(shì)頭,一方面源于ChatGPT在技術(shù)層面的重大突破,另一方面則得益于其在應(yīng)用端為普通人所帶來(lái)的直觀體驗(yàn)。正因如此,我們與埃隆·馬斯克產(chǎn)生了相同的感慨:ChatGPT的強(qiáng)大能力,令人驚嘆。
? 圖靈測(cè)試的歷史背景
圖靈測(cè)試作為衡量AI智能的標(biāo)準(zhǔn)在ChatGPT出現(xiàn)前倍受關(guān)注。圖靈測(cè)試,這個(gè)在1950年被提出的概念,逐漸成為了衡量AI智能程度的重要標(biāo)準(zhǔn),甚至被視為唯一標(biāo)準(zhǔn),吸引了眾多追隨者。然而,隨著人工智能領(lǐng)域的不斷發(fā)展,尤其是對(duì)話機(jī)器人技術(shù)的突飛猛進(jìn),圖靈測(cè)試的局限性也逐漸顯現(xiàn)。每當(dāng)人工智能領(lǐng)域取得新的進(jìn)展時(shí),都會(huì)面臨圖靈測(cè)試的嚴(yán)峻挑戰(zhàn),甚至在某些情況下,新的技術(shù)進(jìn)展反而因?yàn)闊o(wú)法通過(guò)圖靈測(cè)試而黯然失色。這使得“圖靈測(cè)試”在一定程度上成為了一個(gè)神話,甚至被視為束縛AI發(fā)展的魔咒。
? ChatGPT引領(lǐng)的變革
ChatGPT通過(guò)圖靈測(cè)試標(biāo)志AI新時(shí)代的到來(lái)。然而,智能的定義并非一成不變。在ChatGPT引領(lǐng)的新時(shí)代下,我們有必要重新審視智能的概念。盡管圖靈測(cè)試在歷史上曾發(fā)揮過(guò)重要作用,但如今它已經(jīng)無(wú)法適應(yīng)人工智能領(lǐng)域的發(fā)展需求。因此,我們需要尋找新的評(píng)估標(biāo)準(zhǔn)和方法來(lái)更全面地衡量AI的智能水平。
GPT-4的突破與評(píng)估
2023年3月14日,GPT-4驚艷亮相,這款具備多模態(tài)能力的新一代AI模型,在發(fā)布后便引起了廣泛關(guān)注。GPT-4不僅在多項(xiàng)人類(lèi)專(zhuān)業(yè)測(cè)試中表現(xiàn)出色,甚至通過(guò)了律師考試。
? GPT-4的能力展示
GPT-4展現(xiàn)卓越的多領(lǐng)域能力。據(jù)報(bào)道,GPT-4不僅在多項(xiàng)人類(lèi)專(zhuān)業(yè)測(cè)試中表現(xiàn)出色,甚至通過(guò)了律師考試,更令人矚目的是,它還成功通過(guò)了一些經(jīng)典心理學(xué)測(cè)驗(yàn),展現(xiàn)出了相當(dāng)于9歲兒童的心智水平。這一系列的成就,使得人們開(kāi)始期待:ChatGPT何時(shí)能迎來(lái)圖靈測(cè)試的突破?
? 基準(zhǔn)測(cè)試的局限性
盡管GPT-4在考試中表現(xiàn)優(yōu)異,但這些測(cè)試未能反映其真實(shí)智能。值得注意的是,LLMs在考試題上的成功可能并不穩(wěn)固,可能無(wú)法轉(zhuǎn)化為解決現(xiàn)實(shí)世界問(wèn)題的強(qiáng)大能力。Mitchell表示,通過(guò)稍微修改考試題目,就有可能讓LLM不及格。她以工商管理碩士研究生的考試問(wèn)題為例,稍作修改后,ChatGPT便無(wú)法正確回答。因此,能夠回答原始問(wèn)題的人,同樣能夠應(yīng)對(duì)重新措辭的問(wèn)題。但ChatGPT卻未能通過(guò)這一挑戰(zhàn)。
對(duì)于人類(lèi)來(lái)說(shuō),在這些標(biāo)準(zhǔn)化考試中取得優(yōu)異成績(jī)確實(shí)是一個(gè)可靠指標(biāo),表明其具備一定的通用智力。然而,對(duì)于大型語(yǔ)言模型(LLMs)而言,情況卻大相徑庭。米切爾指出,LLMs的工作方式與人類(lèi)截然不同,因此,我們對(duì)人類(lèi)的推理方式的推斷并不總是適用于這些人工智能系統(tǒng)。