개발 블로그
[공학연구실습2/1주차] 강화학습이란 본문
1. 강화학습이란?
에이전트(의사 결정자)가 주어진 환경(environment)에서 누적된 보상(reward)을 최대화하기 위한 행동(action)을 하는 것
강화학습은 컴퓨터 에이전트가 환경에서 반복적인 시행착오(trial and error)를 통해 작업 수행 방법을 학습하는 머신러닝 기법의 한 유형이다. 실수와 보상을 통해 학습하여 목표를 찾아가는 알고리즘이다. 보상(reward)를 사용해 가중치와 편형을 학습한다. 목적은 최적의 행동양식 또는 정책을 학습하는 것이다.
2. 강화학습의 구성요소
- 상태(state): 정적인 요소+동적인 요소
- 행동(action): 에이전트는 상태를 관찰(observation)하고, 이를 바탕으로 주어진 정책에 따라서 행동을 결정함.
- 관찰(observation): 환경의 현재 상태를 관찰한 결과, 에이전트가 얻은 정보. (state와 비슷)
- 보상(reward): 에이전트가 수행한 행동으로 인해, 환경으로부터 얻은 보상.
- 정책(policy): 순차적 행동 결정 문제에서 구해야 할 답
참고: https://kr.mathworks.com/discovery/reinforcement-learning.html
'전공 공부 > 공학연구실습' 카테고리의 다른 글
[공학연구실습2/2주차]모방학습으로 에이전트 학습시키기 (0) | 2022.11.23 |
---|---|
[공학연구실습2/1주차]VSCode에서 Tensorflow 환경 구축 (0) | 2022.11.22 |
[공학연구실습2/1주차]딥러닝 프레임워크 활용법(Keras/TF 또는 PyTorch 사용) (0) | 2022.11.11 |
[공학연구실습2/1주차]머신런링/딥러닝 모델 성능 분석 (0) | 2022.11.05 |
[공학연구실습2/1주차]Keras로 ANN,CNN 구현 (0) | 2022.11.03 |