Taiwanese 16-tile Mahjong self-play reinforcement-learning platform — research slides, system walkthroughs, and GA-proposal supplements. All links below open standalone HTML decks.
English narrative with Chart.js-rendered trajectory curves (Δscore + CWR vs steps). Primary deck for the course presentation.
以真實麻將牌圖拆解觀測編碼 (34 × 133 tensor)、109 動作空間、模型架構。
每張牌都標註 tile index 對照 observe.go。
GA 搜尋空間以麻將手牌比喻呈現 —— 學習率、entropy、GAE 等超參數做成「候選手牌」。 較早期的 proposal 附錄視覺化。
條件變異數分解的完整實驗流程:snapshot 擷取、wall reshuffle、Monte-Carlo playout、 Law of Total Variance 推導,以及實測 oracle critic 的交叉驗證(val R² = 0.106 vs 理論 0.084)。