【溫馨提示】 dwg后綴的文件為CAD圖,可編輯,無(wú)水印,高清圖,,壓縮包內(nèi)文檔可直接點(diǎn)開預(yù)覽,需要原稿請(qǐng)自助充值下載,請(qǐng)見壓縮包內(nèi)的文件,所見才能所得,下載可得到【資源目錄】下的所有文件哦--有疑問可咨詢QQ:1304139763 或 414951605
黃河科技學(xué)院畢業(yè)設(shè)計(jì)(文獻(xiàn)翻譯) 第 10 頁(yè)
畢業(yè)設(shè)計(jì)
文獻(xiàn)翻譯
院(系)名稱
工學(xué)院機(jī)械系
專業(yè)名稱
機(jī)械設(shè)計(jì)制造及其自動(dòng)化
學(xué)生姓名
武迪
學(xué)號(hào)
080105505
指導(dǎo)教師
楊漢嵩
2012年 03 月 10 日 綜合性應(yīng)急機(jī)器人的運(yùn)動(dòng)模式
M.M. Svinina,*, K. Yamadab, K. Uedab
無(wú)機(jī)仿生控制研究中心,理化學(xué)研究所,森山區(qū),名古屋463-0003,日本
機(jī)械工程,神戶大學(xué),納達(dá)區(qū),神戶657-8501,日本
2001年5月7日,2001年9月17日
本文研究的是穩(wěn)定的步態(tài)運(yùn)動(dòng)機(jī)器人的出現(xiàn)。一個(gè)分類器的系統(tǒng),正在加強(qiáng)實(shí)施學(xué)習(xí)計(jì)劃,步態(tài)機(jī)器人是用于八條腿感官機(jī)器人的電機(jī)控制合成。機(jī)器人沒有對(duì)環(huán)境的先驗(yàn)知識(shí)和自己的內(nèi)部模型。這僅僅是個(gè)假設(shè),機(jī)器人能夠獲得通過學(xué)習(xí)如何達(dá)到目標(biāo)區(qū)域的穩(wěn)定步態(tài)。在學(xué)習(xí)過程中的控制系統(tǒng)是由鋼筋信號(hào)自組織。到達(dá)目標(biāo)區(qū)域。德納一個(gè)全球性的獎(jiǎng)勵(lì),提出議案得到當(dāng)?shù)氐莫?jiǎng)勵(lì),而退一步失敗的話卻得到當(dāng)?shù)靥幜P。隨著學(xué)習(xí)的進(jìn)展,在分類器系統(tǒng)的操作規(guī)則的數(shù)量穩(wěn)定在一定水平,相應(yīng)的步態(tài)模式。根據(jù)仿真和實(shí)驗(yàn)測(cè)試所提出的自組織系統(tǒng)的可行性。最小的模擬模型不需要構(gòu)造復(fù)雜的計(jì)算方案只用于模擬。仿真數(shù)據(jù),被下載到真正的機(jī)器人控制系統(tǒng),來(lái)發(fā)展最小的機(jī)器人模型??傮w而言,10個(gè)模擬數(shù)據(jù)成功
運(yùn)行了7個(gè)真正的機(jī)器人。?Elsevier科學(xué)有限公司保留所有權(quán)利。
1. 分類器系統(tǒng)
我們的方法是用機(jī)器人控制系統(tǒng)進(jìn)行建模,由一個(gè)分類器系統(tǒng)輸出控制命令回應(yīng)一個(gè)感官輸入。在分類器系統(tǒng)中,實(shí)際觀測(cè)空間和行動(dòng)傳感器操作規(guī)則確定的狀態(tài)空間映射到確定的行為。
該傳感器狀態(tài)空間的發(fā)展,作為學(xué)習(xí)進(jìn)步,其結(jié)構(gòu)是自組織(圖2)。分類器系統(tǒng)的結(jié)構(gòu)類似于威爾遜提出的最基本的一個(gè)系統(tǒng)結(jié)構(gòu)[28]。本質(zhì)上的區(qū)別在于建立它的連續(xù)狀態(tài)與動(dòng)作空間。
1.1運(yùn)動(dòng)規(guī)則
讓ns作為傳感器的數(shù)量和x={ x1,…,xn }T作為機(jī)器人的感官輸入。應(yīng)該系統(tǒng)是一套操作準(zhǔn)則,R. 準(zhǔn)則r∈R定義如下:r;=
, V={ v1,…, vns }T是狀態(tài)向量與記憶的準(zhǔn)則,W={w1,…, wns}T是權(quán)重向量,u是準(zhǔn)則的效用,a是準(zhǔn)則r相應(yīng)的操作活動(dòng)。實(shí)用u實(shí)在學(xué)習(xí)過程中的一個(gè)實(shí)數(shù)表示的相對(duì)值。它沒有任何直接的物理意義,并只可能與相關(guān)準(zhǔn)則的力量和內(nèi)部能量相聯(lián)系。該實(shí)用程序可能具有生物學(xué)意義,因?yàn)樗菑臏?zhǔn)則的父繼承和稍后的進(jìn)化過程中改變的。
在某種意義上,如果V匹配當(dāng)前的感管輸入X,準(zhǔn)則r變得活躍,能激發(fā)其作用。權(quán)重向量W是用來(lái)比較V和X的。wi∈[0,1]是荷蘭的‘不在意’符號(hào)的連續(xù)模擬。當(dāng)wi接近于零是,第i個(gè)傳感器測(cè)量就不那么重要了。其中W=0是所謂的無(wú)限期準(zhǔn)則。在目前的狀態(tài)X下無(wú)論任何地方的機(jī)器人都可以被激活。所有其他的準(zhǔn)則都是明確的。他們可以被附近的V激活,使用重量W定義在其附近。準(zhǔn)則的特異性:作為衡量明確的準(zhǔn)則。其中λ是時(shí)間依賴的尺度參數(shù)。當(dāng)λ接近1時(shí),準(zhǔn)則規(guī)定的行為會(huì)有更多的反應(yīng)。另一方面,隨著λ越接近0,行為便變得更加積極主動(dòng)(即會(huì)有更多不受限制地在探索環(huán)境的方式)。
其實(shí),在我們的實(shí)現(xiàn),這是不夠的,僅僅保留一個(gè)模糊期準(zhǔn)則。R中的所有其他準(zhǔn)則都是明確的。開始R是由最初實(shí)用u0模糊準(zhǔn)則分配的。隨著學(xué)習(xí)的進(jìn)步,R,nr的總數(shù)通過復(fù)制和廢止而變化。
1.2運(yùn)動(dòng)選擇
在R中與對(duì)方進(jìn)行權(quán)利競(jìng)爭(zhēng)會(huì)引發(fā)他們的運(yùn)動(dòng)。對(duì)于所有rj∈R的準(zhǔn)則,目前感官狀態(tài)X和準(zhǔn)則的狀態(tài)向量Vj之間的加權(quán)距離定義為:其中,dk是隨時(shí)間變化的縮放參數(shù),它被定義為在學(xué)習(xí)過程中觀察到的第k個(gè)傳感器的最高和最低值之間的最大區(qū)別。
接下來(lái),我們定義匹配率:其中,Tm是一個(gè)常數(shù)。注意的是即使沒有明確的準(zhǔn)則匹配的感官輸入X,模糊的準(zhǔn)則也總是起作用。事實(shí)上,不管是否遇到狀態(tài)X,W=0和m=1總是匹配。這使得模糊準(zhǔn)則可能的候補(bǔ)得以被選擇。這在學(xué)習(xí)過程的開始特別重要,模糊準(zhǔn)則往往認(rèn)為是新準(zhǔn)則的執(zhí)行和新準(zhǔn)則生成的重要因素。
也要注意,當(dāng)模糊準(zhǔn)則被執(zhí)行,與此活動(dòng)相關(guān)的準(zhǔn)則按照[amin,amax]均勻分布隨機(jī)生成。
成功的準(zhǔn)則是按照概率加權(quán)的方法給出了的玻爾茲曼分布:參數(shù)T的溫度含義是保持設(shè)置的狀態(tài)空間開發(fā)和探索之間的平衡。
1.3信貸分配
公用事業(yè)的準(zhǔn)則是每次更新后,優(yōu)勝者將執(zhí)行其活動(dòng)。實(shí)用調(diào)整機(jī)制包括以下幾個(gè)部分。
直接收益分配。直接收益分配P是只在特定狀態(tài)下給予優(yōu)勝者的準(zhǔn)則。其中有兩種類型:回報(bào)(P>0)和懲罰(P<0)?;貓?bào)是沿著規(guī)則的順序傳播,從而引發(fā)他們的活動(dòng)折扣率γ(即當(dāng)前和以前的優(yōu)勝者):其中N是優(yōu)勝者鏈的深度,0<γ<1。這相當(dāng)于分享利潤(rùn)盈利的策略在隨著時(shí)間逐漸貼進(jìn)一步向后倒退。在這里,rw(1)是rw的父類,而rw(2)又是rw(1)的父類,以此類推。
桶橋策略。當(dāng)前的優(yōu)勝者rw交其用途的一部分,Δu,恢復(fù)到以前的優(yōu)勝者,rw:要注意的是準(zhǔn)則rw(1)增加了其效用。然而,我們沒有減少的規(guī)則rw實(shí)用性,這是我們的戰(zhàn)略和傳統(tǒng)之間的主要區(qū)別。如果觸發(fā)的動(dòng)作只由數(shù)量有限的準(zhǔn)則(R的子集)和他們遞交ΔU到另一個(gè)準(zhǔn)則決定,那么每個(gè)準(zhǔn)則的效用有望逐步收斂到這些規(guī)則之間的最高效用。因此,行動(dòng)準(zhǔn)則,以這種方式進(jìn)行合作,可以存活一段時(shí)間,這期間的回報(bào)是很少的。這可以根據(jù)自組織的準(zhǔn)則尋找一個(gè)最終的獎(jiǎng)賞。
征稅。每當(dāng)一個(gè)明確的準(zhǔn)則rw觸發(fā)其活動(dòng),其效用被更新為:準(zhǔn)則rw激活率cf比照支付的成本,以防止死鎖或循環(huán)的行為。在某種意義上說(shuō),準(zhǔn)則是征稅的執(zhí)行權(quán)。需要注意的是模糊準(zhǔn)則是免稅的,因?yàn)樗闹饕δ苁巧尚碌囊?guī)則。
蒸發(fā)。當(dāng)機(jī)器人到達(dá)目標(biāo)狀態(tài)時(shí),所有的規(guī)則都減少他們實(shí)用蒸發(fā)率η<1:從某種意義上講,它所對(duì)應(yīng)的是‘通貨膨脹’。其效用低于閾值以下的規(guī)則將被刪除。
1.4復(fù)制
在選擇優(yōu)勝者規(guī)則rw的時(shí)候,我們執(zhí)行與此規(guī)則相關(guān)的行動(dòng)aw。接下來(lái)的事情就是我們應(yīng)該關(guān)心行動(dòng)之后的執(zhí)行以及效用的調(diào)整,這個(gè)過程就是復(fù)制過程。在我們的系統(tǒng)中,除了rw觸發(fā)的行動(dòng)導(dǎo)致倒退或者崩潰這種情況,優(yōu)勝者規(guī)則rw總是生成一個(gè)新規(guī)則rc(孩子規(guī)則)。復(fù)制過程的詳細(xì)信息形式化如下。
如果優(yōu)勝者是模糊規(guī)則,復(fù)制的規(guī)則參數(shù)就設(shè)置為:vic=xi,wic=1,i=1,…,ns。
我們稱之為‘經(jīng)驗(yàn)記憶’。效用的新規(guī)則,其作用的代碼是通過父類實(shí)現(xiàn)的:ac=aw,uc=uw。
另一方面,如果優(yōu)勝者是一個(gè)明確規(guī)則,我們?cè)噲D‘推廣經(jīng)驗(yàn)’,那么新產(chǎn)生的規(guī)則是廣義的。
要注意的是,即使其匹配率mw<1,具有較高的實(shí)用uw的規(guī)則rw也可以在競(jìng)爭(zhēng)中取勝。在我們的系統(tǒng)中,優(yōu)勝者再次提供的一個(gè)通用的規(guī)則rc的匹配率mw,是在某一確定的閾值θr,i.e,mw<θr范圍內(nèi)。下面的表達(dá)式是與θr有關(guān)的實(shí)用規(guī)則uw的表達(dá)式:θr=exp(-Truw)。其中Tr是個(gè)常量。言下之意是,具有較高匹配率但實(shí)用性低的規(guī)則,我們?cè)试S其通過復(fù)制障礙,反之亦然。
Vc和Wc為廣義新規(guī)則載體的設(shè)置如下:vic=xi,wic=1-|xi-vic|\di,i=1,…,ns.
為新的廣義規(guī)則的代碼實(shí)用性和靈活性設(shè)置為:ac=aw,uc=λcuw。
要注意的是,上述形成的新的廣義規(guī)則可以和一個(gè)更加寬廣的狀態(tài)空間相匹配,其中包括其父類的狀態(tài)。
2. 模擬實(shí)驗(yàn)與測(cè)試結(jié)果
首先,學(xué)習(xí)步驟的可行性需要用模擬實(shí)驗(yàn)來(lái)檢驗(yàn)。如果機(jī)器人到達(dá)目標(biāo)區(qū)域,或者產(chǎn)生的行動(dòng)步驟超過500,程序就會(huì)更新一次。參數(shù)設(shè)置如下:全局獎(jiǎng)勵(lì)P=5,本地獎(jiǎng)勵(lì)P=5,對(duì)應(yīng)行為的懲罰P=-5%, u0=10, umin=9.5, cf=0.015, γ=0.8, к=0.1, η=0.98, T=3, Tm=100, Tr=0.5。
10次模擬實(shí)驗(yàn)連續(xù)進(jìn)行,每一次的動(dòng)作都會(huì)進(jìn)化。模擬的不同僅在于初始生成的隨機(jī)數(shù)量。圖10中顯示了機(jī)器人第6次和第9次的運(yùn)動(dòng)軌跡。兩次都到達(dá)了目標(biāo)區(qū)域。注意即使在成功案例中,機(jī)器人也沒有使用最短路徑。實(shí)際上,前進(jìn)方向的數(shù)據(jù)并沒有放進(jìn)傳感器的學(xué)習(xí)步驟里。因此,選擇不同的前進(jìn)方向,并沒有對(duì)應(yīng)的懲罰或者獎(jiǎng)勵(lì)操作。另外一點(diǎn),盡管機(jī)器人并不是直線到達(dá)目標(biāo)區(qū)域,但腿部的運(yùn)動(dòng)模式一直很穩(wěn)定。
圖11中展示了學(xué)習(xí)過程的動(dòng)態(tài)曲線。記錄了到達(dá)目標(biāo)區(qū)域,所經(jīng)歷的懲罰,獎(jiǎng)勵(lì)以及必須步驟的數(shù)目。圖表中,機(jī)器人得到的全局獎(jiǎng)勵(lì)由向下的箭頭標(biāo)示。很顯然,隨著學(xué)習(xí)過程的進(jìn)展,懲罰的次數(shù)逐漸減少。
圖11. 學(xué)習(xí)記錄
圖12展示了規(guī)則的總數(shù),固定規(guī)則的數(shù)量,以及生成規(guī)則的數(shù)量。分別以點(diǎn)連線,細(xì)線,粗線表示。
圖12. 規(guī)則的生成
學(xué)習(xí)的動(dòng)態(tài)過程展示了規(guī)則的總數(shù),和到達(dá)目標(biāo)區(qū)域的必須步驟的數(shù)量之間,有相應(yīng)的關(guān)系。也就是說(shuō),總數(shù)減少之后,必須步驟也隨即減少。并且,懲罰的數(shù)量和新生成規(guī)則的數(shù)量之間,也有相應(yīng)的聯(lián)系。這就間接說(shuō)明,不定規(guī)則的探索能力,逐漸可以歸納為有效固定規(guī)則的開發(fā)功能。實(shí)際上,僅有少量的固定規(guī)則才能產(chǎn)生“有用”的行為來(lái)引發(fā)機(jī)器人的動(dòng)作,并且增強(qiáng)這些動(dòng)作的實(shí)用性。同時(shí),“不相關(guān)”規(guī)則的實(shí)用性逐漸降低,并且最終消失。因此,一段時(shí)間過后,剩余的規(guī)則就能發(fā)揮主導(dǎo)作用。
到達(dá)目標(biāo)的必須步驟在第35節(jié)之后,開始變得穩(wěn)定。這是因?yàn)闄C(jī)器人掌握了一定的行為規(guī)則。圖13中展示了機(jī)器人第90次的腿部動(dòng)作記錄。
圖13. 腿部動(dòng)作
模擬環(huán)境下,控制裝置生成新行為的能力不斷進(jìn)化,現(xiàn)在也能夠在試驗(yàn)中得到驗(yàn)證。模擬數(shù)據(jù)(第90次以后的規(guī)則)被下載到機(jī)器人OCT1-b的控制系統(tǒng)中,會(huì)執(zhí)行一次實(shí)驗(yàn)動(dòng)作。在這次實(shí)驗(yàn)動(dòng)作中,機(jī)器人被相同的分類系統(tǒng)所控制。
整體來(lái)說(shuō),控制真實(shí)機(jī)器人的10次模擬數(shù)據(jù)中,有7次是成功的。為了說(shuō)明實(shí)驗(yàn)結(jié)果,我們選擇了一次成功的數(shù)據(jù)和一次不成功的實(shí)驗(yàn)行為數(shù)據(jù)。機(jī)器人在第6次和第9次模擬實(shí)驗(yàn)中的行為見圖14。在模擬試驗(yàn)中進(jìn)化出的直線前進(jìn)的動(dòng)作與不完美的模擬數(shù)據(jù)相比,并不健壯。這給了我們引出了另一個(gè)問題,就是修正模型中的噪點(diǎn),并且在存在干擾因素的環(huán)境下,進(jìn)化機(jī)器人的控制系統(tǒng)。
圖14. 真實(shí)機(jī)器人行為
圖15展示了實(shí)驗(yàn)階段里機(jī)器人的步伐(腿部動(dòng)作的角度)。所有的測(cè)試中,即使是失敗案例,機(jī)器人都在嘗試跟隨模擬實(shí)驗(yàn)里的運(yùn)動(dòng)模式。某種意義上來(lái)說(shuō),動(dòng)作步驟所組成的行為模式,可以看作是機(jī)器人控制系統(tǒng)中基因的組成“材料”。
圖15. 腿部動(dòng)作記錄
3 總結(jié)
出現(xiàn)在運(yùn)動(dòng)機(jī)器人的穩(wěn)定步態(tài)研究在這個(gè)文件。一個(gè)分類器系統(tǒng),實(shí)施實(shí)例基于強(qiáng)化學(xué)習(xí)計(jì)劃,用于感官八條腿的移動(dòng)機(jī)器人的電機(jī)控制。機(jī)器人沒有先驗(yàn)知識(shí)的環(huán)境,其自己的內(nèi)部模型,和目標(biāo)坐標(biāo)。這只是假設(shè)機(jī)器人可以通過學(xué)習(xí)獲得穩(wěn)定的步態(tài)如何達(dá)到目標(biāo)區(qū)。在學(xué)習(xí)過程中的加固信號(hào)控制系統(tǒng)是自組織。達(dá)到光源德納一個(gè)全球性的獎(jiǎng)勵(lì)。向前議案獲得當(dāng)?shù)氐莫?jiǎng)勵(lì),同時(shí)加強(qiáng)和下降沿下得到當(dāng)?shù)氐膽土P??刂菩袆?dòng)。如學(xué)習(xí)進(jìn)步,在數(shù)量上的行動(dòng)規(guī)則分類器系統(tǒng)穩(wěn)定到一定程度。因此,運(yùn)動(dòng)模式全球行為(穩(wěn)定步態(tài))出現(xiàn),作為規(guī)則分類器系統(tǒng)的自我學(xué)習(xí)期間舉辦的過程。提出系統(tǒng)的可行性進(jìn)行測(cè)試下仿真和實(shí)驗(yàn)。虛擬船模型建造和使用不斷變化的機(jī)器人控制器在模擬環(huán)境下。驗(yàn)證模型。
本文所提出的結(jié)果我們初步運(yùn)動(dòng)模式的新興合成研究運(yùn)動(dòng)機(jī)器人。因此,有足夠的空間?在未來(lái)應(yīng)解決的關(guān)鍵點(diǎn)?例如,最小的模型似乎工作以及簡(jiǎn)單導(dǎo)航任務(wù),但其性能尚未測(cè)試更復(fù)雜的行為。接下來(lái),分類器系統(tǒng),我們作為一個(gè)學(xué)習(xí).引擎有許多參數(shù)調(diào)整到最佳值。此外,我們并沒有使用正規(guī)系統(tǒng)的程序,以評(píng)估性能因?yàn)檫@是一個(gè)不平凡的問題。在這方面,工作[31]的結(jié)果可能會(huì)提供一些??有價(jià)值的見解。
談到的框架,進(jìn)一步發(fā)展最小的仿真模型,我們認(rèn)為計(jì)算簡(jiǎn)單最小的機(jī)型應(yīng)該是成反比,控制對(duì)象的復(fù)雜性成正比??紤]隨著時(shí)間的簡(jiǎn)單性和復(fù)雜性變化依靠數(shù)量上的學(xué)習(xí)經(jīng)驗(yàn),正常模式也可以被視為在一個(gè)可進(jìn)化的方式。?“進(jìn)化的組件將允許關(guān)閉控制循環(huán)和減少學(xué)習(xí)控制器之間的差距。正在使用該模型。從這個(gè)角度來(lái)看,它會(huì)有趣的建立和利用之間的二元(行動(dòng)狀態(tài)的映射)模型和控制器(狀態(tài)到動(dòng)作映射)在開發(fā)協(xié)同進(jìn)化場(chǎng)景。這里的關(guān)鍵問題是在之間的關(guān)系真實(shí)的評(píng)價(jià)和自我評(píng)價(jià)。在為了得到一些如何真正評(píng)價(jià)的頻率基本的了解下,發(fā)展個(gè)人計(jì)算時(shí)間,我們計(jì)劃探測(cè)相對(duì)簡(jiǎn)單的一維或二維的問題控制任務(wù)。