Notice
Recent Posts
Recent Comments
Link
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

개발 블로그

[공학연구실습2/1주차] 강화학습이란 본문

전공 공부/공학연구실습

[공학연구실습2/1주차] 강화학습이란

토산인 2022. 11. 22. 23:24

 

 

1. 강화학습이란?

에이전트(의사 결정자)가 주어진 환경(environment)에서 누적된 보상(reward)을 최대화하기 위한 행동(action)을 하는 것

강화학습은 컴퓨터 에이전트가 환경에서 반복적인 시행착오(trial and error)를 통해 작업 수행 방법을 학습하는 머신러닝 기법의 한 유형이다. 실수와 보상을 통해 학습하여 목표를 찾아가는 알고리즘이다. 보상(reward)를 사용해 가중치와 편형을 학습한다. 목적은 최적의 행동양식 또는 정책을 학습하는 것이다. 

 

 

 

2. 강화학습의 구성요소

  • 상태(state): 정적인 요소+동적인 요소
  • 행동(action): 에이전트는 상태를 관찰(observation)하고, 이를 바탕으로 주어진 정책에 따라서 행동을 결정함.
  • 관찰(observation): 환경의 현재 상태를 관찰한 결과, 에이전트가 얻은 정보. (state와 비슷)
  • 보상(reward): 에이전트가 수행한 행동으로 인해, 환경으로부터 얻은 보상.
  • 정책(policy): 순차적 행동 결정 문제에서 구해야 할 답

 

 

 

참고: https://kr.mathworks.com/discovery/reinforcement-learning.html