close
ε-優先 (ε-first) 策略:均衡摸索與開辟的吃角子老虎機策略
最早被提出的吃角子老虎機策略叫做「ε-優先策略」,這個策略的概念是:在「吃角子老虎機」的過程中,剛起頭賭徒沒有任何各拉桿期望報酬的資訊,是以賭徒需要索求 (exploration) 各個機台報答的可能性,也就是先試玩一段時間。好比說,有以下四個分歧設計的按鈕,每一個按鈕都是一台「吃角子老虎機」,而在消費者進入商品頁面時我們進展出現出「期望采辦機率」最大的按鈕,此時每個拉桿的「期望待遇」便是「期望購置機率」。「情境式吃角子老虎機」將能協助機器在「摸索」與「開發」的報酬及風險中獲得更好的均衡。
然而,跟著玩遊戲的次數 n 的增添,賭徒對於不同機械的期望報酬愈來愈認識,因此會希望「摸索」的機率跟著次數 n 增加下降,為了節制「摸索」的步調,可以將「ε-貪心策略」擴展為「εn-貪心策略」。在「ε-優先策略」中,指的是「摸索次數佔總次數的百分比」。
生涯中的吃角子老虎機
吃角子老虎問題架構在生活中到處可見。再簡化一點,吃角子老虎機的運作體例其實就是「玩家拉下拉桿,將會得到一個具有隨機性的報酬」。是以,賭徒最先思考如何一邊「摸索」、一邊「開辟」,也就是怎麼樣的策略能讓賭徒「邊學邊賺」?
為了達到「邊學邊做」的目標,可以採用「ε-貪心策略」。另外一個問題在於,前100 次的索求中,可能會花了太多力氣在「探索」上面,而損失掉了在 100 次中賺到更多報答的可能。
然而這樣的方式有兩個問題,起首,假如每個小設計都需要蒐集 200 份問卷,或是邀請 20 個消費者進行訪談,本錢其實相當高,其實不能經常執行。
假設賭徒的資產足夠讓他玩 1000 次,而賭徒心中設定 ε = 10%,那麼在進行前 100 次遊戲時,賭徒將會隨機拉動一個拉桿,並記錄得下的報答。
透過「情境」解決複雜的問題
傳統的多拉桿吃角子老虎機問題已有相當多的解法,如應用統計學中信賴區間方式的「相信上界」 (upper confidence bound)¹ ,也有效來處置每台機器每次嘉獎都會改變的「指數加權」 (exponential weighted)¹ 演算法等;但是,這些演算法都沒法納入實際「情境」 (context) 進行考量。多拉桿吃角子老虎機問題大量存在於臨床試驗²、投資組合經管³、保舉系統⁴等範疇當中,甚至連日前擊敗韓國棋王李世乭的 AlphaGo⁵,都有它的身影。老虎機「多臂吃角子老虎機」就是一種「拔取策略」,透過曩昔使用者點擊的記載,選擇使「期望購買機率」極大化的按鈕。積累足夠次數的探索,對於每台機械的期望報酬有了一定的認識以後,賭徒就能夠起頭進行開辟 (exploitation) ,不斷去玩最有潛力(期望待遇最高)的機台,獲取最大的積累酬勞。
優拓資訊採用更前進的「情境式吃角子老虎機」 (contextual bandit) ,摹擬大腦「情境」與「嘉獎」的調控機制,透過外部「情境」的更新,進行更好的預測。
如何同時統籌探索與開辟,是多拉桿吃角子老虎機策略的焦點問題。好比說在拍賣網站中,我們時常會看到「立刻購買」的按鈕,到底這個按鈕該若何設計──顏色深淺、黑底還是白底,才可以或許獲得最高的購置機率呢?我們固然可以透過市場調查,領會消費者對於分歧設計、色彩的設法主意,選出一個消費者最喜歡的作為終究顯現。
吃角子老虎機 (bandit) 是一種賭場常見的機械,玩家將硬幣投入後拉下拉桿,接著會隨機泛起分歧圖案,假如終止時泛起相符溝通或特定溝通圖案連線,則可以按照賠率獲得特定的報酬 (reward) 。
「ε-貪心策略」 希望能夠在極力「開辟」的同時,偶爾也試著去「索求」不同的拉桿。
ε-貪婪 (ε-greedy) 策略:邊學邊賺的演算法
「ε-優先策略」有兩個比較大的問題,一是在前 100 次的遊戲中,是不是真的摸索足夠了?假如今天有 50 台的機台,每個機台有 5 種可能的報酬,那麼前 100 次的遊戲中我們只能領會不到一半的可能性。
多臂吃角子老虎機 (multi-armed bandit) ,指的則是許多台吃角子老虎機給玩家選擇,每一台機械可以獲得的期望待遇皆紛歧樣。另外,消費者的謎底是很容易被問卷或訪談主持人誘導的,是以我們可能其實不能獲得真正會吸引消費者采辦的按鈕。是以,在每輪選擇吃角子老虎機時,將有 ε 的機率隨機選擇一台吃角子老虎機(探索),有 1 - ε 的機率會選擇過去平均報答最大的機械(開發)。好比說,旁邊的賭客若是咒罵某台吃角子老虎機很糟,那麼賭徒應當要避免除拉那台機械。
因此,我們可以透過上線測試,運用演算法讓現實的利用者點擊資料決定該選擇哪一種設計去出現。如果探索得太多,可能會造成真正獲得的報答沒法極大化;如果探索得太少,則可能錯失高待遇的機械。 在某些假設下,我們可以透過數學證實「εn-貪心策略」在遊戲次數足夠多時,選到最好機械的機率非常高¹。以後的 900 次遊戲,賭徒將會憑據過去的報酬的記載,每次遊戲皆選擇平均報答最高的機台進行,全力衝刺賺取最大酬勞。站在玩家的立場,方針應當是透過機械的選擇,在遊戲中取得最大「期望酬勞」。
招財8,招財8online,JP8,老虎機,SLOT,電動間,拉霸,彩金,遊藝場
本文來自: https://jp8tw.pixnet.net/blog/post/132328590老虎機
文章標籤
全站熱搜
留言列表