티스토리 뷰
what?
<개념잡기>
강화학습이란 머신러닝의 한 종류로, 어떠한 환경에대한 어떠한 행동이 잘못된 것인지 잘 된 것인지 나중에 확인하고 보상을 달리 줌으로써 반복을 통해서 스스로 학습하게 하는 방법이다.
- 환경과 에이전트의 상태 등을 입력값으로 받아 인공 신경망이 행동을 결정하고 보상이 있다면 이전 학습값과 행동을 긍정적으로 학습 => 딥러닝 방법
- 마르코프 의사결정 + 학습의 개념
* 마르코프 가정
상태가 연속적으로 이어질 때 어떠한 시점에 대한 상태는 그 시점 바로 이전의 상태에만 영향을 받는다는 가정
* 마르코프 과정
상태전이 확률 : 어떠한 상태가 i일때, 그 다음 상태가 j가 될 확률을 의미함.(즉, 어떠한 상태가 특정 상태에 영향을 미칠 확률을 의미함)
이때, 마르코프 가정을 만족하면 바로 직전의 확률을 사용한 조건부 확률로 상태전이 확률을 이해할 수 있음.
*마르코프 의사결정과정
- MDP(마르코프 과정)을 기반으로한 의사결정 모델.
- 상태집합, 행동집합, 상태전이 확률행렬, 보상함수, 할인요인으로 구성됨.
- 할인 요인 : 과거의 행동을 얼마나 반영할지 결정 => 0~1사이의 값.
- policy 정책 : 에이전트는 어떠한 상태 s에서 수행핳 행동 a를 정해야하며 이를 정책이라고 함. => 총 보상을 최대화 하는 방향으로 결정
<상태 가치 함수와 상태-행동 가지 함수>
상태 가치 함수란?
에이전트가 어떠한 행동을 수행하는 과정에서 상태가 시간에 따라 변화함.
상태가치 함수는 현재 상태 s에서 정책을 따랐을 때의 가치.
상태-행동 가치 함수란?
어떤 상태 s에서 행동 a를 수행했을 때, 획득할 총 보상의 기댓값.
상태 가치 함수에서 행동 a에 대한 조건이 추가.
즉, 현재 상태 s에서 정책에 따라 행동 a를 수행했을 때의 가치.
<벨만 방정식>
상태 가치 함수와 상태-행동 가치 함수의 관계를 나타내는 방정식.
-벨만 기대방정식/ 벨만 최적 방정식
벨만 기대 방정식이란?
벨만 방정식으로 상태 가치 함수와 상태-행동 가치 함수를 기댓값 E로 표현가능.
'데이터분석 및 인공지능' 카테고리의 다른 글
기본 이미지 분류[기본분류] (0) | 2021.12.10 |
---|---|
1. 의류 이미지 분류 (0) | 2021.11.03 |
순환 신경망을 활용한 문자열 생성 (0) | 2021.03.29 |
csv파일을 활용한 데이터처리 (0) | 2021.03.29 |
머신러닝과 딥러닝 (0) | 2021.03.03 |
- Total
- Today
- Yesterday
- 시뮬레이션 c
- 파이썬 알아두면 유용
- 소프트웨어공학설계
- c++덱
- 영화 리뷰 긍정 부정 분류
- 기사작성 대외활동
- LAMBDA
- stack 컨테이너
- 10866 백준
- 백준 11053 파이썬
- 백준 15650 파이썬
- 효율적인방법찾기
- 11053 백준
- 백트래킹(1)
- 기본 텍스트 분류
- 코딩월드뉴스
- mm1queue
- CREATE ASSERTION
- 모듈 사용법
- 백준 10866
- 핀테크 트렌드
- 온라인프로필 만들기
- CSMA/CD란?
- 백준 숫자놀이
- 13886
- 스택 파이썬
- 딥러닝입문
- 4963 섬의개수
- 백준 4963
- DRF 회원관리
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |