波多野结衣av在线播放,2020国产精品视频,大香伊人中文字幕精品

機器人多任務(wù)技能習(xí)得_融合外刺激和內(nèi)驅(qū)動的學(xué)

發(fā)布日期：2021-08-30 23:50:48 作者：宮志強瀏覽次數(shù)：17

導(dǎo)讀

轉(zhuǎn)自 CAAI認知系統(tǒng)與信息處理專委會本文提出了一種在多任務(wù)機器人技能獲取框架背景下耦合內(nèi)部引導(dǎo)學(xué)習(xí)和社交互動的方法。更具體地說，專注于通過結(jié)合主動內(nèi)在動機學(xué)習(xí)和主動模仿學(xué)習(xí)來學(xué)習(xí)機器人運動基元的參數(shù)化分

轉(zhuǎn)自 CAAI認知系統(tǒng)與信息處理專委會

本文提出了一種在多任務(wù)機器人技能獲取框架背景下耦合內(nèi)部引導(dǎo)學(xué)習(xí)和社交互動的方法。更具體地說，專注于通過結(jié)合主動內(nèi)在動機學(xué)習(xí)和主動模仿學(xué)習(xí)來學(xué)習(xí)機器人運動基元的參數(shù)化分布。由機器人通過經(jīng)驗。這種方法旨在通過依賴技能獲取機制盡可能有效地結(jié)合體驗式學(xué)習(xí)和觀察式學(xué)習(xí)，其中代理/機器人能以迭代方式編排不同的學(xué)習(xí)策略，并根據(jù)以前的經(jīng)驗調(diào)整這些模式的使用。模擬的 7-DoF Franka Emika 機器人證明了本文的方法在垃圾扔任務(wù)上的有效性，在學(xué)習(xí)過程的每次迭代中，機器人可以在觀察/模仿學(xué)習(xí)和體驗/內(nèi)在動機學(xué)習(xí)之間進行主動選擇。

人類和其他動物通過終身學(xué)習(xí)以開放式的方式獲得和完善技能，因此在他們的環(huán)境中進行互動和學(xué)習(xí)時具有自主性和多功能性。盡管人工智能取得了重要進展，但機器人仍然缺乏這種能力。賦予機器人以開放式方式增量地自主發(fā)現(xiàn)和解決多項任務(wù)的能力是當今機器人技術(shù)的最大挑戰(zhàn)之一，也是發(fā)展機器人技術(shù)領(lǐng)域的目標。特別是，人類有能力使用多種學(xué)習(xí)方式，最有趣的是根據(jù)其可靠性來仲裁他們的選擇。本文通過提出一種結(jié)合內(nèi)在動機學(xué)習(xí)和模仿學(xué)習(xí)的有原則的計算方法來探索實現(xiàn)這一目標的可能途徑。在機器人技術(shù)中，技能習(xí)得最常通過專注于單一學(xué)習(xí)策略或通過預(yù)先定義學(xué)習(xí)策略的基本序列（例如，用演示初始化的強化學(xué)習(xí)問題）來研究。這導(dǎo)致了大量的研究工作致力于開發(fā)專門用于單個領(lǐng)域的非常精細的算法（從演示中學(xué)習(xí)、強化學(xué)習(xí)、好奇心驅(qū)動的學(xué)習(xí)）。

本文認為，可以通過允許多種學(xué)習(xí)策略并提供一種機制來以開放式和交互方式選擇這些學(xué)習(xí)方式，從而降低這種復(fù)雜性。就像我們不能僅僅通過看電視來學(xué)習(xí)踢球，也不能僅僅根據(jù)比賽規(guī)則從頭開始學(xué)習(xí)足球戰(zhàn)術(shù)一樣。我們認為機器人應(yīng)該依賴多種學(xué)習(xí)策略，其順序只能確定在學(xué)習(xí)過程中，以終身學(xué)習(xí)的方式。上述論點受到各個領(lǐng)域的研究的推動，包括認知科學(xué)、行為學(xué)、神經(jīng)計算和機器人學(xué)，所有這些都以不同的形式證明了見解，關(guān)于結(jié)合多種學(xué)習(xí)方式來獲得技能的重要性。特別是，多項發(fā)展研究表明，模仿學(xué)習(xí)是兒童發(fā)展中社會學(xué)習(xí)的關(guān)鍵組成部分。孩子們傾向于模仿他們看到的東西，即使觀察到的一些動作不一定有用。從發(fā)展機器人學(xué)的角度來看，本文認為在技能獲取過程中編排多種學(xué)習(xí)策略可以更好地應(yīng)對每個單獨策略的特定優(yōu)勢和局限性。事實上，這些策略通常是相互補充的，因此有必要將她們結(jié)合起來。內(nèi)在動機學(xué)習(xí)不需要外部指導(dǎo)，即不需要人在場，但通常涉及與環(huán)境的長期交互過程。另一方面，模仿學(xué)習(xí)需要人類在場，但演示提供了大量信息，而這些信息需要大量時間才能自主獲取。

本文提出了一種可以在不同方面發(fā)揮作用的主動學(xué)習(xí)方法_在基元級別，通過以開放式方式?jīng)Q定當前最合適的學(xué)習(xí)方式，在低級別，通過決定哪些代理當前需要自己體驗或要求作為演示的條件/情況/背景。本文的貢獻是用于學(xué)習(xí)機器人運動原語的貝葉斯計算框架，提供這種高級和低級仲裁能力，即_策略選擇_機器人根據(jù)其先前的經(jīng)驗在模仿學(xué)習(xí)和內(nèi)在動機學(xué)習(xí)之間主動選擇。示范選擇_在模仿學(xué)習(xí)策略中，機器人主動選擇期望的目標產(chǎn)生最有趣的演示。策略探索_在內(nèi)在動機學(xué)習(xí)策略中，機器人主動選擇哪個動作最能提高其對任務(wù)的知識。據(jù)本文所知，本文的工作是第一個將這三個學(xué)習(xí)方面集成到計算框架中的工作。

通過 7-DoF 模擬 Franka Emika Panda 機器人的垃圾投擲任務(wù)展示了本文方法的穩(wěn)健性。本文通過將每個主動學(xué)習(xí)算法與替代基線進行比較來研究她們的有用性，并表明在所有實驗中，本文的算法都提供了最佳性能。本文方法的基本要素在于對運動的聯(lián)合分布進行建模。以此可以計算幾種形式的條件分布（在本文的例子中，量化特定機器人運動對物體的內(nèi)在激勵學(xué)習(xí)的影響，或者將物體帶到所需的最終模仿位置所需的機器人運動學(xué)習(xí)）。此外，由于內(nèi)在動機學(xué)習(xí)和模仿學(xué)習(xí)基于相同的運動聯(lián)合模型，本文可以定量比較這些非常不同的學(xué)習(xí)方式。在未來的工作中，本文將研究是否可以將額外的學(xué)習(xí)方式添加到框架中。特別是，使用人類反饋作為一種學(xué)習(xí)方式可能特別有趣，因為人類用戶向機器人提供部分反饋而不是完整演示會不那么麻煩。未來還將調(diào)查所提議的主動學(xué)習(xí)方法是否可以擴展到技能的不同方面，以允許不同的學(xué)習(xí)方式改進任務(wù)的不同方面（例如，通過觀察學(xué)習(xí)獲得運動學(xué)方面，以及通過體驗式學(xué)習(xí)的動態(tài)方面）。

(文/宮志強)

• 海倫光電測徑儀在特殊場景下的應(yīng)用和表現(xiàn)如何？	• 新泰LP-PDA工業(yè)系統(tǒng) 洞察數(shù)據(jù)價值賦能智能升級
• 海城藍鵬測控的產(chǎn)品有哪些優(yōu)勢和特點？	• 鞍山在線測徑儀活塞桿生產(chǎn)線的“隱形守護者”
• 龍井直線度測量儀的測量原理	• 汨羅LP-SCADA工業(yè)產(chǎn)線高密度數(shù)據(jù)采集實時響應(yīng)
• 熱評丨努力向上_夢想總能照進現(xiàn)實	• 英語聽多就懂哪些詞會連著讀_哪些詞的某些音在
• 才知道_給電動車更換石墨烯電池_到底哪種蕞好？	• 英語“不用謝”_不要再說Youre_welco

VIP

推廣服務(wù)

機器人多任務(wù)技能習(xí)得_融合外刺激和內(nèi)驅(qū)動的學(xué)