不卡av在线播放_欧美成人AU在线看_亚洲一区二区 视频_五月天亚洲无码伊人

Article / 文章中心

替代圖靈測試?讓人工智能參加數(shù)學(xué)和科學(xué)考試

發(fā)布時間:2021-11-29 點擊數(shù):999

這篇論文提供了一個思考人工智能的新視角。在衡量人工智能上,圖靈測試(Turing test)已經(jīng)被證明是一種不足實用的方法。所以現(xiàn)在標準化的數(shù)學(xué)和科學(xué)考試(standardized math and science tests)已經(jīng)被視為了一種可用于衡量人工智能的方法。該論文的目的是概述能通過標準化數(shù)學(xué)和科學(xué)考試的機器的制作方法。


1. 引言


該論文的作者首先指出,對于人類,我們可以通過我們給出的相關(guān)問題的答案來進行評價。但我們不能使用同樣的標準來評價機器。由阿蘭·圖靈在 1950 年提出的圖靈測試 [1] 的評價方式是看機器能否表現(xiàn)出與人類無法區(qū)分的對話行為。而在今天,Clark 和 Etzioni [2] 提出可使用數(shù)學(xué)和科學(xué)的標準化考試作為評價機器智能的適當(dāng)方法。這篇論文給出了一個簡要介紹,讓我們可以了解可如何訓(xùn)練機器來解決數(shù)學(xué)和科學(xué)問題。


2. 問答和數(shù)學(xué)/科學(xué)領(lǐng)域


問答(QA)是一種需要機器為問題生成答案的任務(wù),其中問題和答案都是自然語言?,F(xiàn)代問答系統(tǒng)主要基于兩種范式。


一種是基于文本的問答(text-based QA),其依賴于大量文本。首先,它會通過信息檢索方法來檢索包含了答案的文檔,然后其會從文本中提取出候選答案并對這些答案進行排名。


另一種是基于知識的問答(knowledge based QA),這種方法會創(chuàng)建問題的語義表征(semantic representation),然后將其用于查詢事實數(shù)據(jù)庫(databases of facts)。


在科學(xué)和數(shù)學(xué)問題上的問答還面臨著額外的獨特難題,因為解決這些問題既需要對問題有很好的理解,還需要將問題的內(nèi)在表征包含進來。此外,它往往需要執(zhí)行符號計算 [2]。通過信息檢索或基于知識的方法,這個問題無法得到輕松的解決。


3. 用于科學(xué)的問答


標準化考試中的科學(xué)問題主要包含三類:基本事實檢索、推理和世界知識、圖表。這個問答任務(wù)所用的數(shù)據(jù)集是 New York Regents Science Exams (NYSED) [3]。


3.1 數(shù)據(jù)集


該論文提供了一些測試和答案的示例。


  • 基本問題


1. 下面哪種物體是最優(yōu)良的電導(dǎo)體?


(A)蠟筆(B)塑料勺子(C)橡皮擦(D)鐵釘


2. 風(fēng)或水所導(dǎo)致的土壤運動被稱為:


(A)冷凝(B)蒸發(fā)(C)侵蝕(D)摩擦


這些問題可以通過基于信息檢索的問答系統(tǒng)解決。


  • 簡單推理


1. 下面哪個例子描述了生物在獲取養(yǎng)分?


A)一只狗在掩埋骨頭(B)一個女孩在吃蘋果(C)一只昆蟲在樹葉上爬行(D)一個男孩在花園里種植番茄


通過基于已知事實的簡單推理可以得到這個問題的答案。機器應(yīng)當(dāng)知道「吃」涉及到「獲取養(yǎng)分」,而蘋果包含養(yǎng)分。


  • 更復(fù)雜的世界知識


1. 一個騎自行車的學(xué)生觀察到在平滑的道路上比在不平整的道路上騎得快,這是因為平滑的道路有


(A)更小的重力(B)更大的重力(C)更小的摩擦力(D)更大的摩擦力


對于這個問題,機器應(yīng)該具備更深度的知識和更好的語言能力。比如,「騎自行車」意味著在移動,然后按路徑推理。


  • 圖表


1. 圖 1 中哪個字母指示的植物結(jié)構(gòu)可以吸收水和養(yǎng)分?


微信圖片_20211129002944.jpg


3.2 模型


人們采用了多種方法來解決這個問題。這篇論文展示了兩種方法。


參考文獻 [4] 提出了一種使用整數(shù)線性規(guī)劃(ILP/ Integer Linear Programming)的方法。其中,問答問題基于半結(jié)構(gòu)化的知識(structured knowledge)而被形式化所需的支持圖(Support Graph),這最終會變成 ILP。這個系統(tǒng)如圖 2 所示。


微信圖片_20211129002950.jpg

圖 2:TableILP 會搜索將問題和答案連接起來的最佳的支持圖(推理鏈)。這個例子的問題是:紐約州的哪個月白天持續(xù)時間最長?答案是:六月。


參考文獻 [5] 使用了一個解算器集合(ensemble of solvers)來在不同的層解決問題。這些層如圖 3 所示,該系統(tǒng)包含了信息檢索解算器、點互信息解算器(Pointwise Mutual Information solver)、支持向量機解算器、RULE 解算器(其中包含人工編碼的規(guī)則)和整數(shù)線性規(guī)劃。這個系統(tǒng)被稱為 ARISTO,并且實現(xiàn)了當(dāng)前最佳。


微信圖片_20211129002956.jpg

圖 3:Aristo 使用了五個解算器來回答多選問題,其中每一個都使用了不同類型的知識


4. 用于數(shù)學(xué)的問答


信息檢索系統(tǒng)不能解決數(shù)學(xué)問題。為了解決數(shù)學(xué)問題(尤其是算術(shù)問題),系統(tǒng)需要理解該問題,并且構(gòu)造一個等式來進行計算。幾何問題由于依賴圖表而有所困難。


4.1 數(shù)據(jù)集


與 3.1 部分類似,本論文提供了標準化考試中的樣本并給出了相應(yīng)的解答。其中幾何使用了來自 SAT 的問題,其它問題則來自 NYSED。


  • 代數(shù)問題


1.Molly 擁有 Wafting Pie 公司。今天早上,她的員工使用了 816 個雞蛋來烤南瓜餅。如果她的員工今天總共使用了 1339 個雞蛋,那么他們下午使用了多少個雞蛋?


2.Sara 的高中今年贏了 5 場籃球賽,輸了 3 場。他們今年總共比賽了幾場?


3.John 有 8 個橙色氣球,但是丟掉了 2 個。John 現(xiàn)在有多少個橙色氣球?


語言處理是必需的,而且后兩者還需要世界建模(world modeling)。


  • 幾何問題


在圖 4 中,機器應(yīng)該理解算術(shù)和圖表推理(diagrammatic reasoning)。


微信圖片_20211129003003.jpg

圖 4:如圖所示,AB 與圓 O 相交于 D,AC 與圓 O 相交于 E,AE=4,AC=24,AB=16。求 AD。


4.2 模型


論文中給出了四種方法。一是簡單的動詞分類(verb categorization),旨在解決代數(shù)詞問題。該模型如圖 6 所示,我們可以看到該模型會提取出問題中的動詞,然后基于動詞類別來構(gòu)建等式。


微信圖片_20211129003012.jpg

圖 6:動詞分類


另一個系統(tǒng)被稱為 ALGES,使用了整數(shù)線性規(guī)劃(ILP)來將詞問題映射到一個等式樹中,而且更加復(fù)雜。如圖 5 所示。


微信圖片_20211129003019.jpg

圖 5:用于詞問題及其 Qsets 的學(xué)習(xí)過程的概覽


第三個模型則試圖解決幾何圖表問題。它是在參考文獻 [6] 中提出的。它使用了三個步驟來將文本和幾何圖表對齊:


1)選取最大化像素覆蓋(pixel coverage)的元素并識別圖中的圖元(primitive);

2)使用圖元和文本元素之間的協(xié)議;

3)最大化元素的一致性(coherence)。


在圖 7 中,對齊(alignment)是由系統(tǒng)實現(xiàn)的。


微信圖片_20211129003046.jpg

圖 7:圖表理解:識別圖中的視覺元素,并將它們與提及的文本對齊。視覺元素和它們對應(yīng)的文本提及按不同顏色編碼。這幅圖加了顏色最好看。


最后一個模型被用于解決幾何圖表問題,其是在參考文獻 [7] 中提出的。其遵循兩個步驟:1)使用了第三個模型和語言處理來將圖表和問題轉(zhuǎn)換成邏輯表達式;2)使用了可滿足性解算器(satisfiability solver)來推導(dǎo)答案。這些步驟可見圖 8.


微信圖片_20211129003055.jpg

圖 8:我們用于求解幾何問題的方法概述


5. 結(jié)論


當(dāng)前最佳的方法還不能很好地解決標準化考試。未來將會有更多方法完成標準化的數(shù)學(xué)和科學(xué)問題。即使機器通過了這些測試,我們?nèi)匀徊荒苷f它是智能的(intelligent)。但是人工智能通過數(shù)學(xué)和科學(xué)標準化考試將會成為人工智能歷史上的一個里程碑事件。


6. 參考文獻


[1] Turing, Alan M.「Computing machinery and intelligence.」Mind 59.236 (1950): 433-460.

[2] Clark, Peter, and Oren Etzioni.「My Computer Is an Honor Student-but How Intelligent Is It? Standardized Tests as a Measure of AI.」AI Magazine 37.1 (2016): 5-12.

[3] NYSED. 2014. New York Regents Science Exams. http://www.nysedregents.org/.

[4] Koncel-Kedziorski, Rik, et al.「Parsing Algebraic Word Problems into Equations.」TACL 3 (2015): 585-597.

[5] Schoenick, Carissa, et al.「Moving Beyond the Turing Test with the Allen AI Science Challenge.」arXiv preprint arXiv:1604.04315 (2016).

[6] Seo, Min Joon, et al.「Diagram Understanding in Geometry Questions.」AAAI. 2014.

[7] Seo, Min Joon, et al.「Solving Geometry Problems: Combining Text and Diagram Interpretation.」EMNLP. 2015.