下载APP 帮助中心

当前位置：首页 > 查试题 >

一個強化學習模型，下列敘述何者為真？（）

单选题

一個強化學習模型，下列敘述何者為真？（）

A. 一組可以動態變化的狀態（state）。比如圍棋棋盤上的黑白子的分佈位置，市場上的每支股票的價格

B. 一組可以選取的動作（action）。比如對於圍棋來說，就是可以落子的位置；對於股票交易來說，就是每個時間點，買入或者賣出的股票以及數量

C. 一個可以和決策主體（agent）進行交互的環境。這個環境會決定每個動作後狀態如何變化。比如說圍棋博弈中的對手，或者股票市場。在強化學習中，為了降低學習的代價，很多時後我們會使用一個通過機器模擬的環境，而不是以真實場景作為環境

D. 回報（reward）規則。當決策主體通過行動狀態發生變化時，它會獲得回報或者受到懲罰

E. 以上皆是

查看答案

该试题由用户804****85提供查看答案人数：31262 如遇到问题请联系客服

热门试题

依據1982年聯合國海洋法公約，下列關於制裁海盜行為之敘述何者錯誤？（） 關於RNN的敘述何者正確？（） 下列何者關於「年輕企業」的敘述錯誤？ 下列有關船舶共有之規定，敘述何者錯誤？（） 下列何者非自強運動時期所設立的新式學校（） 關於併購活動的敘述，以下何者正確？ 在AutoCAD中關於「引線」的敘述何者錯誤？ 有關結構型商品風險來源之敘述，下列何者正確？ 對於詞袋模型的描述，何者為非？（） 船長在駕駛台,則下列關於負責航行當值之航行員之敘述何者正確？A（） 一個正多邊形的每個內角為108 ，則它是正（）邊形 一個正多邊形的每個內角為108 ，則它是正（）邊形 生成對抗網路中的判別網路，其輸出結果通常為一個數值。在一般的情況下，下列輸出數值何者來自真實數據的可能性最高？（） 正態分布的兩個參數為 21、子曰：“( )四十而不惑，五十而知天命。”22、不違農時，榖不可勝食也。( )，魚鱉不可勝食也。23、夫如是，故遠人不服，( );既來之，則安之。24、北冥有魚，其名為鯤。( );化而為鳥，其名為鵬。25、知困，然後能自強也。( )。《兌命》曰：“學學半。”26、轂與魚鱉不可勝食，( )，是使民養生喪死無憾也。雖然後來神經網路模型隨著電腦計算能力的進步，網路結構逐漸變得又深又複雜，更準確的卷積神經網路結構大量地相繼出現，但不可否認的是__為後續的其他網路架構都定下了基礎，是深度學習發展的一個重要里程碑？（） 船舶共有人中有一人或數人,就其應有部分所設定的抵押權,是否因分割或出賣而受影響？下列敘述何者正確？（） ，近代化學家﹑翻譯家。他有多項發明創造，與華蘅芳合作，製造了中國第一台蒸汽機和第一艘以蒸汽為動力的木殼輪船，並大量翻譯西方化學﹑醫學﹑法學著作（） 关于冠脉血流做列哪敘述是错误的？（） 二個維度分別為3和5一階張量進行卷積運算，結果維度為多少？（）

~~购买搜题卡~~会员须知|联系客服

免费查看答案购买搜题卡

关注公众号，回复验证码
享30次免费查看答案

微信扫码关注立即领取

恭喜获得奖励，快去免费查看答案吧~

去查看答案

全站题库适用，可用于聚题库网站及系列App

只用于搜题看答案，不支持试卷、题库练习，下载APP还可体验拍照搜题和语音搜索

支付方式

登录成功

首次登录已为您完成账号注册，
可在【个人中心】修改密码或在登录时选择忘记密码
账号登录默认密码：~~手机号后六位~~