精品丝袜国产自在线拍小草_日本电影在线观看苍井空_国产自产第二区_包含人妻精品视频_天浩电子产品的特点

當(dāng)前位置: 首頁 >> 熱點(diǎn) > > 正文

「人造太陽」精準(zhǔn)放電!DeepMind實(shí)現(xiàn)AI可控核聚變新突破

2023-07-27 19:23:46華爾街見聞

AI可控核聚變,指日可待。

秘密研發(fā)3年,DeepMind去年宣稱,首次成功用AI控制「托卡馬克」內(nèi)部等離子體。其重磅成果登上Nature。


(資料圖片僅供參考)

時(shí)隔一年,谷歌AI團(tuán)隊(duì)在這一領(lǐng)域再次取得突破。

最新實(shí)驗(yàn)?zāi)M中,將等離子體形狀精度提高了65%。

DeepMind團(tuán)隊(duì)基于上次的研究,對(duì)智能體架構(gòu)和訓(xùn)練過程提出了算法改進(jìn)。

研究發(fā)現(xiàn),等離子形狀精度提高的同時(shí),還降低了電流的穩(wěn)態(tài)誤差。

甚至,學(xué)習(xí)新任務(wù)所需的訓(xùn)練時(shí)間減少了3倍還要多。

從「星際爭霸」AI碾壓人類,到AlphaGo大戰(zhàn)李世石、AI預(yù)測蛋白質(zhì)折疊,DeepMind已經(jīng)將人工智能算法深入到了足以改世界的不同領(lǐng)域。

這次,DeepMind最細(xì)實(shí)驗(yàn)?zāi)M結(jié)果,為RL實(shí)現(xiàn)精確放電指明了道路。

這一里程碑式的成果,標(biāo)志著「人造太陽」可控放電離人類終極能源的未來又進(jìn)了一步。

RL揭開核聚變奧秘

一旦人類掌握了可控核聚變能,將可擁有無窮不盡的清潔能源。

要知道,反饋控制對(duì)于「托卡馬克裝置」的運(yùn)行至關(guān)重要。

而控制系統(tǒng)會(huì)主動(dòng)管理磁線圈,以控制拉長離子體的不穩(wěn)定性,防止破壞性的垂直事件發(fā)生。

此外,人類若能實(shí)現(xiàn)對(duì)等離子體電流、位置和形狀的精確控制,還可以實(shí)現(xiàn)熱排放,甚至對(duì)其能量的管理。

一直以來,科學(xué)家們致力于研究等離子體配置變化對(duì)這些相關(guān)量的影響。因此就需要能夠用于新配置,以及圍繞標(biāo)稱場景快速變化的系統(tǒng)。

傳統(tǒng)上,等離子體的精確控制是通過等離子體電流、形狀和位置的連續(xù)閉環(huán)來實(shí)現(xiàn)的。

在這種模式下,控制設(shè)計(jì)者預(yù)先計(jì)算出一組前饋線圈電流,然后為每個(gè)受控量建立反饋回路。等離子體形狀和位置無法直接測量,必須通過磁場測量實(shí)時(shí)間接估算。

尤其是等離子體的形狀,必須使用平衡重構(gòu)代碼進(jìn)行實(shí)時(shí)估算。

雖然這類系統(tǒng)已成功穩(wěn)定了大范圍的放電,但其設(shè)計(jì)不僅具有挑戰(zhàn)性,還耗時(shí),特別是針對(duì)新型等離子體情況。

值得一體的是,強(qiáng)化學(xué)習(xí)(RL)已成為構(gòu)建實(shí)時(shí)控制系統(tǒng)的另一種全新范式。

2022年,DeepMind團(tuán)隊(duì)登上Nature的一篇論文表明,RL設(shè)計(jì)的系統(tǒng)能夠成功實(shí)現(xiàn)「托卡馬克磁控制」的主要功能。

這項(xiàng)工作提出了一個(gè)系統(tǒng),RL智能體通過與FGE 托卡馬克模擬器交互,學(xué)習(xí)控制托卡馬克配置變量(TCV)。

智能體學(xué)習(xí)的控制策略隨后被集成到TCV控制系統(tǒng)中,通過觀察TCV的磁場測量,并為所有19個(gè)磁控線圈輸出控制指令。

尤其,研究人員展示了RL智能體控制各種情況的能力,包括高度拉長的等離子體、雪花。

甚至還展示了同時(shí)在真空室中,使用兩個(gè)獨(dú)立等離子體穩(wěn)定「液滴 」配置的新方法。

AI控制下生成的幾種不同等離子幾何形狀

但是,RL方法有許多缺點(diǎn),限制了其作為控制托卡馬克等離子體的實(shí)用解決方案的應(yīng)用。

最新研究中,DeepMind決定要解決三個(gè)挑戰(zhàn):

- 指定一個(gè)既可學(xué)習(xí)又能激發(fā)精確控制器性能的標(biāo)量獎(jiǎng)勵(lì)函數(shù)

- 追蹤誤差的穩(wěn)態(tài)誤差

- 較長的訓(xùn)練時(shí)間

首先,團(tuán)隊(duì)提出了「獎(jiǎng)勵(lì)塑形」的方法,以提高控制精度。

然后,通過向智能體提供明確的錯(cuò)誤信號(hào),和集成錯(cuò)誤信號(hào)來解決積分器反饋中的穩(wěn)態(tài)誤差問題。這縮小了經(jīng)典控制器和強(qiáng)化學(xué)習(xí)控制器之間的精度差距。

最后,在片段分塊和遷移學(xué)習(xí)中,解決了生成控制策略所需的訓(xùn)練時(shí)間問題。

研究人員針對(duì)復(fù)雜的放電情況采用了多重啟動(dòng)方法,使得訓(xùn)練時(shí)間大幅縮減。

此外,研究還表明,當(dāng)相關(guān)新情景與之前的情景接近時(shí),使用現(xiàn)有控制策略進(jìn)行熱啟動(dòng)訓(xùn)練,是一種非常有效的工具。

總之,這些技術(shù)大大縮短了訓(xùn)練時(shí)間,提高了精確度,從而使RL成為等離子體控制的常規(guī)可用技術(shù)取得了長足進(jìn)步。

強(qiáng)化學(xué)習(xí)控制等離子體

最新論文中,研究人員采用與Nature那篇論文相同的基本實(shí)驗(yàn)。

RL通過與模擬環(huán)境的交互,學(xué)習(xí)特定實(shí)驗(yàn)的控制策略????,然后TCV上部署由此產(chǎn)生的放電策略。

具體來講,使用自由邊界模擬器FGE進(jìn)行動(dòng)態(tài)建模,并添加了額外隨機(jī)性,以模擬傳感器值和電源的噪聲,并改變等離子體的參數(shù)。

傳感器噪聲適用于每個(gè)環(huán)境步驟,而等離子體參數(shù)變化(等離子體電阻率????????、歸一化等離子體壓力????????、等離子體軸安全系數(shù))則經(jīng)過簡化,因此其值在一個(gè)事件內(nèi)是恒定的,但在兩個(gè)事件之間隨機(jī)取樣。

然后,研究人員使用最大后驗(yàn)優(yōu)化(MPO)算法來制定控制策略。

MPO依靠兩個(gè)神經(jīng)網(wǎng)絡(luò):一個(gè)是輸出當(dāng)前策略????的actor網(wǎng)絡(luò),另一個(gè)是近似該策略預(yù)期累積獎(jiǎng)勵(lì)的critic網(wǎng)絡(luò)。

智能體與1000份FGE環(huán)境進(jìn)行交互,收集看到的觀察結(jié)果、采取的行動(dòng),以及獲得的獎(jiǎng)勵(lì)。

每一步獲得的獎(jiǎng)勵(lì),都是根據(jù)等離子體狀態(tài)與參考值中包含的目標(biāo)值的接近程度來計(jì)算的,并輔以其他因素,如避免不良等離子體狀態(tài)。

從最優(yōu)控制范式到強(qiáng)化學(xué)習(xí)的直接轉(zhuǎn)換是,為每個(gè)要最小化的誤差項(xiàng)設(shè)置一個(gè)獎(jiǎng)勵(lì)分量,其中每個(gè)分量????都被映射為一個(gè)標(biāo)量值????????。

然后將這些值合并為一個(gè)標(biāo)量獎(jiǎng)勵(lì)值。

根據(jù)觀察、行動(dòng)和獎(jiǎng)勵(lì)的記錄序列,智能體使用正則化損失函數(shù)上的梯度下降交替更新策略和critic網(wǎng)絡(luò)。更新后的actor網(wǎng)絡(luò)參數(shù)將用于未來與環(huán)境的交互。

對(duì)于等離子體放電,actor網(wǎng)絡(luò)被限制在一個(gè)能以10kHz頻率執(zhí)行的小型架構(gòu)中,但critic網(wǎng)絡(luò)只在訓(xùn)練過程中使用,因此可以足夠復(fù)雜地學(xué)習(xí)環(huán)境動(dòng)態(tài)。

面向?qū)嵱玫牡膹?qiáng)化學(xué)習(xí)控制器

在具體任務(wù)實(shí)操中,研究人員演示了智能體具體訓(xùn)練過程。

首先討論了通過獎(jiǎng)勵(lì)塑形來提高控制精度。然后介紹了通過積分觀測來減少穩(wěn)態(tài)誤差的工作,討論了使用「episode chunking」來改善現(xiàn)實(shí)的訓(xùn)練時(shí)間。最后探討了遷移學(xué)習(xí)作為提高訓(xùn)練效率的手段。

獎(jiǎng)勵(lì)塑形(reward shaping)

傳統(tǒng)控制算法用各種辦法來最小化主動(dòng)測量(或估計(jì))的數(shù)量誤差,而強(qiáng)化學(xué)習(xí)(RL)算法則旨在最大化一個(gè)通用定義的獎(jiǎng)勵(lì)信號(hào)。

在訓(xùn)練過程中,這種獎(jiǎng)勵(lì)最大化目標(biāo)能推動(dòng)智能體行為的演化,但是在部署時(shí)不會(huì)計(jì)算獎(jiǎng)勵(lì)值。

在經(jīng)典控制算法中,控制器的性能可以通過顯式調(diào)整控制增益(例如,修改響應(yīng)性或干擾抑制)和調(diào)整多項(xiàng)輸入多項(xiàng)輸出(MIMO)系統(tǒng)的權(quán)衡權(quán)重來進(jìn)行調(diào)整。

相比之下,在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)函數(shù)對(duì)于被學(xué)習(xí)的控制器行為至關(guān)重要。

因此,需要仔細(xì)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)來調(diào)整控制器行為。

在本節(jié)中,研究人員探討了如何修改獎(jiǎng)勵(lì)的設(shè)計(jì),以引發(fā)最終訓(xùn)練得到的智能體去進(jìn)行我們所期望的行為。

研究人員發(fā)現(xiàn),通過調(diào)整獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),他們可以快速適應(yīng)智能體的行為,并權(quán)衡目標(biāo)的不同方面。

此外,研究人員證明了塑形獎(jiǎng)勵(lì)函數(shù)對(duì)于創(chuàng)建準(zhǔn)確的強(qiáng)化學(xué)習(xí)控制策略是必不可少的。

而且他們進(jìn)一步展示了通過使用更新后的獎(jiǎng)勵(lì)函數(shù)繼續(xù)訓(xùn)練,可以將智能體應(yīng)用到新的目標(biāo)上。

獎(jiǎng)勵(lì)設(shè)計(jì)介紹

研究人員在先前研究的基礎(chǔ)上修改了為磁控而設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。

研究人員使用加權(quán)的SmoothMax函數(shù)來組合獎(jiǎng)勵(lì)組件的值。

在某些情況下,一個(gè)單獨(dú)的獎(jiǎng)勵(lì)組件由多個(gè)相關(guān)的誤差量構(gòu)成,比如在多個(gè)控制點(diǎn)處的形狀誤差。

研究人員還利用SmoothMax函數(shù)將這些誤差組合成一個(gè)單一的標(biāo)量獎(jiǎng)勵(lì)組件。

SmoothMax函數(shù)的定義如下所示:

許多喂給SmoothMax函數(shù)的單獨(dú)組件的構(gòu)建方式與經(jīng)典控制器類似(例如,將等離子體電流保持接近期望值)。

然而,獎(jiǎng)勵(lì)組件并不受限于從傳感器測量中獲得,這在構(gòu)建中就能提供了額外的靈活性。

獎(jiǎng)勵(lì)組件還可以是多模態(tài)的,例如鼓勵(lì)智能體遠(yuǎn)離狀態(tài)空間中不理想或模擬器建模較差的區(qū)域。

研究人員使用用SoftPlus轉(zhuǎn)換來獲得標(biāo)量獎(jiǎng)勵(lì)組件:

理論上,許多參數(shù)的選擇應(yīng)該是近似等效的,因?yàn)樗鼈兪仟?jiǎng)勵(lì)的單調(diào)調(diào)整,不應(yīng)該對(duì)最優(yōu)策略產(chǎn)生很大影響。

然而,在實(shí)踐中,研究者依賴于梯度下降(gradient descent),并沒有一個(gè)完美的全局優(yōu)化器(global optimizer)。

研究人員需要在面對(duì)隨機(jī)回報(bào)的情況下探索全局空間。

很好和很差的緊密值使得很難找到任何可觀的獎(jiǎng)勵(lì)區(qū)域(或者在如何改進(jìn)方面有明顯的梯度)。

另一方面,較寬松的很差值使得更容易找到獎(jiǎng)勵(lì)信號(hào),但更難以發(fā)現(xiàn)精確的控制,因?yàn)楦倪M(jìn)時(shí)獎(jiǎng)勵(lì)變化較小。

直觀上,因此,「緊密」獎(jiǎng)勵(lì)參數(shù)可能更適用于初始條件接近目標(biāo)狀態(tài)的情況,因此獎(jiǎng)勵(lì)不需要塑造目標(biāo)發(fā)現(xiàn),而應(yīng)更注重精確性。

在簡單環(huán)境中的獎(jiǎng)勵(lì)塑形

在研究人員的初始實(shí)驗(yàn)中,考慮了三種訓(xùn)練方法,重點(diǎn)是通過修改「shape_70166」任務(wù)中形狀誤差的獎(jiǎng)勵(lì)組件的超參數(shù)來最小化形狀誤差。

1. 基準(zhǔn)線:采用之前研究的默認(rèn)獎(jiǎng)勵(lì)參數(shù) - good = 0.005,bad = 0.05。

參考值產(chǎn)生了一個(gè)較為寬松的獎(jiǎng)勵(lì)函數(shù),該設(shè)置使獎(jiǎng)勵(lì)信號(hào)集中在較高的誤差值,對(duì)于較小的誤差值也提供了引導(dǎo)信號(hào),激勵(lì)增加形狀控制的準(zhǔn)確性。

2. 窄化獎(jiǎng)勵(lì):將參數(shù)更新為good = 0和bad = 0.025。

這些參考值產(chǎn)生了一個(gè)更為嚴(yán)格的獎(jiǎng)勵(lì)函數(shù)。該設(shè)置將獎(jiǎng)勵(lì)信號(hào)集中在較低的誤差值,甚至對(duì)于小的誤差值也提供了引導(dǎo)信號(hào),鼓勵(lì)在控制形狀時(shí)提高準(zhǔn)確性。

3. 獎(jiǎng)勵(lì)調(diào)度(reward schedule):將good和bad的值在訓(xùn)練過程中逐漸調(diào)整為更加尖峰(more Peaked),good = 0,bad從0.1逐漸減少到0.025,共進(jìn)行600萬次策略更新步驟。

該調(diào)度在訓(xùn)練開始時(shí)提供了一個(gè)較寬的獎(jiǎng)勵(lì)區(qū)域來幫助探索,隨著訓(xùn)練的進(jìn)行逐漸收緊獎(jiǎng)勵(lì)函數(shù),以鼓勵(lì)準(zhǔn)確性。

歷史數(shù)據(jù)在獎(jiǎng)勵(lì)函數(shù)演變過程中不會(huì)重新被標(biāo)記,但過時(shí)的數(shù)據(jù)最終會(huì)從學(xué)習(xí)智能體的回放緩沖區(qū)中消失。

這一系列的實(shí)驗(yàn)結(jié)果如下圖所示。該研究證明了用于訓(xùn)練的獎(jiǎng)勵(lì)選擇對(duì)最終訓(xùn)練的智能體的性能有著顯著影響。

通過對(duì)形狀誤差的關(guān)注,研究人員注意到對(duì)最終智能體性能影響最大的是采用了高度嚴(yán)格的靜態(tài)獎(jiǎng)勵(lì)函數(shù)的「窄化獎(jiǎng)勵(lì)」。

在這個(gè)簡單的任務(wù)中,更精確的獎(jiǎng)勵(lì)函數(shù)為控制器提供了強(qiáng)烈的準(zhǔn)確性激勵(lì)。

盡管如上所述,這樣尖銳的獎(jiǎng)勵(lì)信號(hào)可能會(huì)對(duì)策略發(fā)現(xiàn)造成影響,但該任務(wù)的目標(biāo)是保持交接位置,因此在這個(gè)任務(wù)中探索并不是一個(gè)主要的挑戰(zhàn)。

由于幾乎不需要探索來找到高度獎(jiǎng)勵(lì)的狀態(tài),智能體可以專注于滿足嚴(yán)格的獎(jiǎng)勵(lì)信號(hào)。

此外,任務(wù)的簡單性意味著在獎(jiǎng)勵(lì)組件之間準(zhǔn)確控制很少或幾乎不需要權(quán)衡取舍(trade off)。

復(fù)雜任務(wù)的獎(jiǎng)勵(lì)塑形

研究人員轉(zhuǎn)向「snowflake_to_perfect」任務(wù),這個(gè)任務(wù)訓(xùn)練成本更高,獎(jiǎng)勵(lì)調(diào)整更為復(fù)雜,因?yàn)樯婕暗綍r(shí)變目標(biāo)和更多的關(guān)注指標(biāo)。

而且他們?cè)噲D通過獎(jiǎng)勵(lì)塑形來提高X點(diǎn)位置的準(zhǔn)確性。

以下是針對(duì)X點(diǎn)位置準(zhǔn)確性的獎(jiǎng)勵(lì)塑形方法:

1. 基準(zhǔn)線:使用從Degrave等人先前的采取的默認(rèn)參數(shù)進(jìn)行訓(xùn)練 ?good = 0.005,bad = 0.05。

2. X點(diǎn)微調(diào)(X-Point Fine Tuned):首先使用默認(rèn)參數(shù)進(jìn)行訓(xùn)練,然后進(jìn)行第二階段的訓(xùn)練,使用更為嚴(yán)格的獎(jiǎng)勵(lì),強(qiáng)調(diào)X點(diǎn)位置的準(zhǔn)確性 — good = 0,bad = 0.025。

3. 窄化X點(diǎn)獎(jiǎng)勵(lì)(Narrow X-Point Reward):從訓(xùn)練開始就使用更為嚴(yán)格的獎(jiǎng)勵(lì)函數(shù) — good = 0,bad = 0.025。

4. 額外訓(xùn)練:在不更新獎(jiǎng)勵(lì)函數(shù)的情況下進(jìn)行額外的訓(xùn)練。這樣使得研究人員能區(qū)分更多訓(xùn)練和改變獎(jiǎng)勵(lì)函數(shù)所帶來的影響。

研究人員比較了上述四種不同的訓(xùn)練配置的性能,結(jié)果總結(jié)在下表中。

積分器(integrator)反饋

積分誤差的近似可以通過遞歸神經(jīng)網(wǎng)絡(luò)來計(jì)算,然而,它們更容易過度擬合仿真動(dòng)態(tài)。

在這項(xiàng)工作中,研究人員采用了一種更簡單的解決方案:沒有讓策略(policy)學(xué)習(xí)積分誤差,而是手動(dòng)計(jì)算它,并將其附加到前饋策略所觀察到的觀測集中。

他們特別關(guān)注了減少等離子體電流(????????)的穩(wěn)態(tài)誤差,之前研究的的訓(xùn)練策略表現(xiàn)出明顯的偏差,并且該誤差可以很容易地計(jì)算。

與傳統(tǒng)方法稍有不同,研究人員向網(wǎng)絡(luò)提供了時(shí)間????的平均等離子體電流誤差定義如下:

研究人員在「shape_70166」任務(wù)中評(píng)估了將平均誤差信號(hào)納入考慮的好處。

在該任務(wù)中,等離子體電流和形狀的參考值是恒定的,環(huán)境初始化后實(shí)際值接近參考值。

因此,智能體的主要目標(biāo)是控制穩(wěn)態(tài)誤差(steady-state)。

下圖顯示了使用積分器反饋訓(xùn)練和未使用積分器反饋訓(xùn)練的策略的模擬等離子體電流誤差軌跡,每種情況下進(jìn)行了三次隨機(jī)運(yùn)行。

研究人員發(fā)現(xiàn),積分器反饋顯著降低了等離子體電流偏差,正如預(yù)期的那樣。

Episode Chunking

在TCV上的實(shí)驗(yàn)持續(xù)1-2秒,相當(dāng)于以10kHz的控制頻率進(jìn)行10,000 - 20,000個(gè)時(shí)間步。

FGE模擬器(如上所述用于訓(xùn)練智能體)在訓(xùn)練過程中使用一顆AMD EPYC 7B12 CPU核心,每個(gè)典型的模擬步驟大約需要2秒鐘,使用隨機(jī)動(dòng)作。

因此,F(xiàn)GE生成包含10,000個(gè)步驟的一次完整episode大約需要5小時(shí)的時(shí)間。

這意味著在最理想的情況下,即智能體在第一次嘗試之前已經(jīng)知道最佳策略,訓(xùn)練時(shí)間仍然會(huì)約為5小時(shí)(以觀察高質(zhì)量的結(jié)果)。

實(shí)際上,強(qiáng)化學(xué)習(xí)智能體需要探索動(dòng)作空間以找到最佳策略。因此,根據(jù)任務(wù)復(fù)雜性,訓(xùn)練時(shí)間可能從幾天到幾周不等。

此外,研究人員的任務(wù)結(jié)構(gòu)使得智能體需要按順序?qū)W習(xí)相對(duì)獨(dú)立的「技能」。例如,在「showcase_xpoint」任務(wù)中,智能體必須先使等離子體變形,然后移動(dòng)其垂直位置,然后改變其流向,最后恢復(fù)原始形狀(參見下圖1)。研究人員觀察到該任務(wù)的學(xué)習(xí)過程發(fā)生在兩個(gè)明顯的階段(見下圖2a)。

首先,智能體學(xué)會(huì)操作有限的等離子體,理解如何延展、移動(dòng)和保持等離子體,這對(duì)應(yīng)于獎(jiǎng)勵(lì)曲線,就是從0平滑上升至約80。

在此階段,智能體嘗試(但失敗了)生成一個(gè)轉(zhuǎn)向形狀,取而代之的是獲得具有非活動(dòng)X點(diǎn)的圓形LCFS,如上圖b所示。

獎(jiǎng)勵(lì)在此水平上保持穩(wěn)定,直到最后,智能體發(fā)現(xiàn)如何成功地將等離子體轉(zhuǎn)向,這時(shí)獎(jiǎng)勵(lì)值從80突變至接近1。

將分塊(chunking)技術(shù)應(yīng)用于展示_x點(diǎn)(showcase_xpoint)任務(wù),并分別使用兩個(gè)/三個(gè)塊(如下圖一所示),可以顯著縮短訓(xùn)練時(shí)間,如下圖2所示。

兩個(gè)塊的設(shè)置(橙色曲線)已經(jīng)比基準(zhǔn)線(藍(lán)色曲線)更快。三個(gè)塊的設(shè)置(3_chunks和3_chunks_eq_weights)不僅提供進(jìn)一步的訓(xùn)練加速,而且學(xué)習(xí)曲線更加平滑。

智能體在約10小時(shí)內(nèi)就能達(dá)到96(滿分100)的獎(jiǎng)勵(lì),而基準(zhǔn)線需要40小時(shí)。

在這里,研究人員嘗試了兩種不同的三塊設(shè)置:所有參與者(actor)被平均分為相同大小的組(3_chunks_eq_weights);與每個(gè)其他塊相比,整個(gè)episode使用三倍更多的參與者。這兩種設(shè)置給出了類似的結(jié)果。

轉(zhuǎn)移學(xué)習(xí)

在試圖減少訓(xùn)練時(shí)間時(shí),一個(gè)自然的問題是問是否可以重用之前放電時(shí)訓(xùn)練的模型,也就是說,智能體在解決一個(gè)初始任務(wù)時(shí)積累的知識(shí)在多大程度上可以轉(zhuǎn)移到一個(gè)相關(guān)的目標(biāo)任務(wù)上。

研究人員以兩種形式考察遷移學(xué)習(xí)的性能:

1.零樣本(Zero-shot):研究人員在目標(biāo)任務(wù)上運(yùn)行在初始任務(wù)上學(xué)習(xí)的策略,而無需進(jìn)行任何額外的數(shù)據(jù)收集或策略參數(shù)更新。

2.微調(diào)(Fine tuning):研究人員使用在初始任務(wù)上學(xué)習(xí)的模型的權(quán)重來初始化策略和值函數(shù),然后使用這些權(quán)重在新的目標(biāo)任務(wù)上通過與環(huán)境交互進(jìn)行訓(xùn)練,其中目標(biāo)任務(wù)作為獎(jiǎng)勵(lì)。需要注意的是,這要求在兩個(gè)任務(wù)中使用相同的架構(gòu)(actor和critic網(wǎng)絡(luò))。

在兩種情況下,研究人員使用在showcase_xpoint任務(wù)上訓(xùn)練的智能體參數(shù)作為遷移的初始參數(shù)。

在第一個(gè)實(shí)驗(yàn)中,研究人員考察當(dāng)參考等離子體電流調(diào)整到新的參考水平時(shí)的遷移學(xué)習(xí)。

具體而言,研究人員選擇了三種變化,其中目標(biāo)????????從基準(zhǔn)線-150kA調(diào)整到-160kA,然后-170kA,最后-100kA(具體而言,在圖1中除了初始交接水平和最終降溫水平外的所有時(shí)間片中調(diào)整參考電流)。

研究人員測試了在showcase_xpoint上訓(xùn)練的策略,首先在目標(biāo)任務(wù)上沒有任何額外訓(xùn)練,然后允許在目標(biāo)任務(wù)上進(jìn)行新的訓(xùn)練。

零樣本結(jié)果的獎(jiǎng)勵(lì)和????????誤差如下表所示,在小的????????變化情況下,智能體表現(xiàn)良好,但在較大的變化情況下,尤其是對(duì)于較大的????????變化,智能體表現(xiàn)較差。

微調(diào)的結(jié)果如下圖a、b、c所示,微調(diào)智能體在所有情況下比從頭開始訓(xùn)練的智能體更快地收斂到近乎最優(yōu)的策略,盡管在最大的50????????變化情況下差異較小。

第二個(gè)實(shí)驗(yàn)考察了等離子體目標(biāo)位置的變化。

具體而言,研究人員沿著z軸向下調(diào)整目標(biāo)形狀,分別平移2厘米、10厘米和20厘米。對(duì)于這個(gè)實(shí)驗(yàn),研究人員觀察到以下結(jié)果:

1. 零樣本(Zero-shot):結(jié)果如下表所示。研究人員發(fā)現(xiàn)對(duì)于最小的平移(2厘米),零樣本遷移效果非常好,任務(wù)的表現(xiàn)達(dá)到了最佳可實(shí)現(xiàn)性能的97%以上(滿分100分),形狀誤差也很小。

對(duì)于較大的10厘米平移,表現(xiàn)較為一般,只獲得了85的獎(jiǎng)勵(lì),并且形狀位置誤差更大。對(duì)于最大的20厘米平移,表現(xiàn)較差,只獲得了35的獎(jiǎng)勵(lì),由于未能成功轉(zhuǎn)向等離子體。

2. 微調(diào)(Fine tuning):微調(diào)的結(jié)果如上圖d、e、f所示,表明對(duì)于2厘米的平移,遷移學(xué)習(xí)效果顯著,對(duì)于10厘米平移,三個(gè)不同的種子中有兩個(gè)種子的效果有效。而對(duì)于較大的20厘米平移,遷移學(xué)習(xí)似乎對(duì)性能產(chǎn)生了不利影響。

總體而言,結(jié)果表明遷移學(xué)習(xí)在當(dāng)前形式下是有用的,但也有一定的局限性。

正如預(yù)期的那樣,目標(biāo)任務(wù)與初始任務(wù)之間的差距越大,遷移學(xué)習(xí)的性能就會(huì)降低,尤其是在零樣本學(xué)習(xí)的情況下。

然而,值得注意的是,在運(yùn)行硬件實(shí)驗(yàn)之前,通過模擬進(jìn)行零樣本評(píng)估的成本相對(duì)較低(以CPU小時(shí)為單位)。

研究人員還發(fā)現(xiàn),某些類型的任務(wù)變化比其他任務(wù)更容易進(jìn)行遷移學(xué)習(xí),在他們的實(shí)驗(yàn)中,相對(duì)較大的等離子體電流變化似乎更適合于遷移學(xué)習(xí),而不是大的位置變化,這在考慮到任務(wù)的相對(duì)復(fù)雜性時(shí)是可以理解的。

需要進(jìn)一步研究來了解哪些任務(wù)適合于遷移學(xué)習(xí),并如何擴(kuò)展有效遷移的范圍,包括零樣本和微調(diào)學(xué)習(xí)。

TCV上的托卡馬克放電實(shí)驗(yàn)

之前的部分僅關(guān)注使用FGE模擬器進(jìn)行仿真、訓(xùn)練和評(píng)估控制策略。

考慮到托卡馬克建模(Tokamak modeling)的復(fù)雜性和挑戰(zhàn),重要的是不能盲目地認(rèn)為仿真中的性能改進(jìn)與實(shí)際放電中的性能改進(jìn)完全相同。

雖然更好的仿真結(jié)果可能對(duì)實(shí)際托卡馬克的改進(jìn)結(jié)果是必要的,但往往是不夠的。

如果沒有額外明確的工作來減小仿真與實(shí)際之間的差距,模型不匹配誤差可能會(huì)變成一個(gè)很主要的問題。

對(duì)于使用強(qiáng)化學(xué)習(xí)獲得的策略,已知會(huì)過度擬合到不完美的模擬器,這種情況尤為明顯。

因此,研究人員在TCV托卡馬克上對(duì)一些上述的仿真改進(jìn)進(jìn)行了測試。

通過這種方式,研究人員可以評(píng)估當(dāng)前工作的優(yōu)勢和局限性,并為下一步的改進(jìn)提供方向。

等離子體形狀精度的獎(jiǎng)勵(lì)塑形

研究人員檢查了獎(jiǎng)勵(lì)塑形在兩種不同配置和目標(biāo)上所帶來的精度改進(jìn):減少形狀穩(wěn)定任務(wù)中的LCFS誤差和提高「snowflake_to_perfect」任務(wù)配置中的X點(diǎn)精度。

研究人員將模擬結(jié)果與TCV上的實(shí)驗(yàn)結(jié)果以及來自Degrave等人(2022)的可比實(shí)驗(yàn)進(jìn)行了比較。與先前的研究一樣,研究人員通過將演員網(wǎng)絡(luò)(由JAX圖定義)創(chuàng)建為共享庫對(duì)象來部署控制策略,其中命令的動(dòng)作是輸出高斯分布的均值。

研究人員首先測試了一個(gè)控制策略,該策略通過在獎(jiǎng)勵(lì)塑形部分中討論的獎(jiǎng)勵(lì)塑形方法來減少shape_70166穩(wěn)定任務(wù)中的LCFS誤差。

對(duì)于這個(gè)穩(wěn)定任務(wù),研究人員使用了TCV的標(biāo)準(zhǔn)擊穿過程和初始等離子體控制器。在0.45秒時(shí),控制權(quán)移交給學(xué)習(xí)的控制策略,然后它試圖在1秒的持續(xù)時(shí)間內(nèi)維持固定的等離子體電流和形狀。

放電后,研究人員使用LIUQE代碼計(jì)算重構(gòu)的平衡態(tài)。在1秒的放電過程中的每個(gè)0.1毫秒時(shí)間片內(nèi),研究人員計(jì)算等離子體形狀的誤差。研究人員比較了三個(gè)實(shí)驗(yàn)的精度,分別從模擬放電和TCV放電中測量形狀誤差:

(a) 一種在本研究之前已經(jīng)存在的基線RL控制器(「Previous」), (b) 一種使用本研究中更新的訓(xùn)練基礎(chǔ)設(shè)施的更新的基線代理(「Updated」), (c) 一種使用獎(jiǎng)勵(lì)塑形訓(xùn)練的代理,就像在獎(jiǎng)勵(lì)塑形部分描述的Fixed Reward一樣。

這些運(yùn)行的結(jié)果在下表中。

X點(diǎn)位置精度的獎(jiǎng)勵(lì)塑形

接下來,研究人員將比較獎(jiǎng)勵(lì)塑形對(duì)更復(fù)雜的「snowflake」配置的影響,如下圖所示。

該策略的訓(xùn)練獎(jiǎng)勵(lì)被塑形以增加X點(diǎn)控制的準(zhǔn)確性。

與穩(wěn)定實(shí)驗(yàn)中一樣,等離子體是通過標(biāo)準(zhǔn)的TCV程序創(chuàng)建和初始控制的,在0.45秒時(shí)將控制權(quán)移交給強(qiáng)化學(xué)習(xí)控制器。

在這個(gè)實(shí)驗(yàn)中,RL訓(xùn)練的策略成功地建立了一個(gè)兩個(gè)X點(diǎn)距離為34厘米的「snowflake」。

然后,該策略成功將兩個(gè)X點(diǎn)帶到了目標(biāo)距離6.7厘米的位置,接近建立一個(gè)所謂的「完美snowflake」。

然而,在1.0278秒(即交接后的0.5778秒),等離子體因垂直不穩(wěn)定性而發(fā)生破裂。

經(jīng)檢查,發(fā)現(xiàn)控制器在保持一致形狀方面存在困難,其中垂直振蕩增加,活動(dòng)的X點(diǎn)在兩個(gè)X點(diǎn)之間切換,導(dǎo)致失控。

下表顯示了在等離子體成功控制期間對(duì)X點(diǎn)追蹤的準(zhǔn)確性。

通過 「Episode Chunking 」來加速訓(xùn)練

最后,研究人員驗(yàn)證了使用「Episode Chunking」來減少訓(xùn)練時(shí)間,特別是驗(yàn)證在TCV放電中是否出現(xiàn)可能的「不連續(xù)性」。

研究人員進(jìn)行了一個(gè)在showcase配置下使用3個(gè)塊進(jìn)行訓(xùn)練的實(shí)驗(yàn)。這個(gè)實(shí)驗(yàn)的重建平衡態(tài)的時(shí)間軌跡可以在下圖中看到。

研究人員發(fā)現(xiàn)實(shí)驗(yàn)按預(yù)期進(jìn)行,沒有因?yàn)椤竐pisode chunking」而產(chǎn)生明顯的偽影。

這證明了這種訓(xùn)練加速方法沒有損失質(zhì)量。

20世紀(jì)50年代起,眾多科學(xué)家們致力于探索、攻克可控核聚變這一難題。

DeepMind最新研究,用強(qiáng)化學(xué)習(xí)算法大幅提升了等離子體的精度,極大縮短了學(xué)習(xí)新任務(wù)的訓(xùn)練時(shí)間。

這為可控核聚變?cè)谖磥韺?shí)現(xiàn)「精準(zhǔn)放電」,能量管理鋪平了道路。

在為人類獲取海量清潔能源,以改變未來的能源路線圖上,DeepMind再次點(diǎn)亮了一盞明燈。

本文來源:新智元,原文標(biāo)題:《「人造太陽」精準(zhǔn)放電!DeepMind實(shí)現(xiàn)AI可控核聚變新突破》

風(fēng)險(xiǎn)提示及免責(zé)條款 市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

標(biāo)簽: