单选题

一個強化學習模型,下列敘述何者為真?()

A. 一組可以動態變化的狀態 (state) 。比如圍棋棋盤上的黑白子的分佈位置,市場上的每 支股票的價格
B. 一組可以選取的動作 (action) 。比如對於圍棋來說,就是可以落子的位置;對於股票交易來說,就是每個時間點,買入或者賣出的股票以及數量
C. 一個可以和決策主體 (agent) 進行交互的環境。這個環境會決定每個動作後狀態如何變化。比如說圍棋博弈中的對手,或者股票市場。在強化學習中,為了降低學習的代價,很多時後我們會使用一個通過機器模擬的環境,而不是以真實場景作為環境
D. 回報 (reward) 規則。當決策主體通過行動狀態發生變化時,它會獲得回報或者受到懲罰
E. 以上皆是

查看答案
该试题由用户804****85提供 查看答案人数:31262 如遇到问题请联系客服
正确答案
该试题由用户804****85提供 查看答案人数:31263 如遇到问题请联系客服
热门试题
依據1982年聯合國海洋法公約,下列關於制裁海盜行為之敘述何者錯誤?() 關於RNN的敘述何者正確?() 下列何者關於「年輕企業」的敘述錯誤? 下列有關船舶共有之規定,敘述何者錯誤?() 下列何者非自強運動時期所設立的新式學校() 關於併購活動的敘述,以下何者正確? 在AutoCAD中關於「引線」的敘述何者錯誤? 有關結構型商品風險來源之敘述,下列何者正確? 對於詞袋模型的描述,何者為非?() 船長在駕駛台,則下列關於負責航行當值之航行員之敘述何者正確?A() 一個正多邊形的每個內角為108 ,則它是正()邊形 一個正多邊形的每個內角為108 ,則它是正()邊形 生成對抗網路中的判別網路,其輸出結果通常為一個數值。在一般的情況下,下列輸出數值何者來自真實數據的可能性最高?() 正態分布的兩個參數為 21、子曰:“( )四十而不惑,五十而知天命。”22、不違農時,榖不可勝食也。( ),魚鱉不可勝食也。23、夫如是,故遠人不服,( );既來之,則安之。24、北冥有魚,其名為鯤。( );化而為鳥,其名為鵬。25、知困,然後能自強也。( )。《兌命》曰:“學學半。”26、轂與魚鱉不可勝食,( ),是使民養生喪死無憾也。 雖然後來神經網路模型隨著電腦計算能力的進步,網路結構逐漸變得又深又複雜,更準確的卷積神經網路結構大量地相繼出現,但不可否認的是__為後續的其他網路架構都定下了基礎,是深度學習發展的一個重要里程碑?() 船舶共有人中有一人或數人,就其應有部分所設定的抵押權,是否因分割或出賣而受影響?下列敘述何者正確?() ,近代化學家﹑翻譯家。他有多項發明創造,與華蘅芳合作,製造了中國第一台蒸汽機和第一艘以蒸汽為動力的木殼輪船,並大量翻譯西方化學﹑醫學﹑法學著作() 关于冠脉血流做列哪敘述是错误的?() 二個維度分別為3和5一階張量進行卷積運算,結果維度為多少?()
购买搜题卡会员须知|联系客服
会员须知|联系客服
关注公众号,回复验证码
享30次免费查看答案
微信扫码关注 立即领取
恭喜获得奖励,快去免费查看答案吧~
去查看答案
全站题库适用,可用于聚题库网站及系列App

    只用于搜题看答案,不支持试卷、题库练习 ,下载APP还可体验拍照搜题和语音搜索

    支付方式

     

     

     
    首次登录享
    免费查看答案20
    登录成功
    首次登录已为您完成账号注册,
    可在【个人中心】修改密码或在登录时选择忘记密码
    账号登录默认密码:手机号后六位