Processing math: 100%
 
컴공돌이의 스터디 블로그
close
프로필 배경
프로필 로고

컴공돌이의 스터디 블로그

  • 분류 전체보기 (29)
    • 논문 Study (0)
      • 국제 저널 논문 요약 (0)
      • 국제 학회 논문 요약 (0)
    • 모델 Study (0)
    • 강의 Study (29)
      • 모두를 위한 머신러닝과 딥러닝 강의-시즌 1 (22)
      • 모두를 위한 머신러닝과 딥러닝 강의-시즌 RL (7)
  • 홈
  • 태그
  • 방명록
[시즌RL].Lecture 6 - Q-Network

[시즌RL].Lecture 6 - Q-Network

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Q-NetworkQ-Table을 사용한 학습은 굉장히 쉽게 사용할 수 있습니다. 하지만 카메라를 통해 입력받은 화면에 대한 Q-Table은 엄청난 크기를 가지게 됩니다. Reinforcement Learning(강화 학습)을 사용할 수 있는 대부분이 이런 카메라를 통해 입력받는 화면을 사용해야 하기 때문에 Q-Table를 대신할 새로운 방법을 생각해야 했습니다. 이런 Q-Table을 대신하여 문제를 해결하기 위해서 선택된 방법이 바로 Neural Network(신경망)입니다. 이 Neural network를 사용한 Reinforcement Learning을 다른 말로 Q-Ne..

  • format_list_bulleted 모두를 위한 머신러닝과 딥러닝 강의-시즌 RL
  • · 2024. 7. 14.
  • textsms

[시즌RL].Lecture 5 - Q-Learning in non-deterministic world

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Q-Learning in non-deterministic worldEnvironment(환경)는 Stochastic(확률론적인)한 성질을 가지고 있다고 할 수 있습니다. 따라서 Deterministic한 모델에서처럼 모델의 출력이 매개변수 값과 초기 조건에 의해 완전히 결정되는 것이 아니라 특유의 무작위성이 있기 때문에, 동일한 설정의 매개변수 값과 초기 조건이어도 다른 출력이 발생될 수 있습니다. 따라서 Equation (1)을 그대로 사용하게 되면 실제로는 학습이 잘 되지 않을 수 있습니다. $$ Q(s, a) = r + \gamma \max_{a'} Q(s', a') $..

  • format_list_bulleted 모두를 위한 머신러닝과 딥러닝 강의-시즌 RL
  • · 2024. 7. 13.
  • textsms

[시즌RL].Lecture 4 - Q-Learning exploit&exploration and discounted reward

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다.  Q-Learning AlgorithmReinforcement Learning(강화 학습)에서 Agent가 Action을 결정하는 것을 도와주는 함수를 Q-Function이라고 하고 Q-Function의 출력값을 사용해서 Action을 결정하는 것을 Q-Learning이라고 합니다. Q-Learning의 알고리즘을 수식으로 표현하면 Equation (1)과 같습니다. Q(s,a)=r+maxQ(s′,a′)(1) 하지만 위의 수식을 그대로 사용해서 학습을 하게될 경우, 한번 목표에 도달하게된 경로로만 움직이고 새로운 길을 학습하지 않는다는 문제점이 발생하..

  • format_list_bulleted 모두를 위한 머신러닝과 딥러닝 강의-시즌 RL
  • · 2024. 7. 12.
  • textsms
[시즌RL].Lecture 3 - Dummy Q-Learning

[시즌RL].Lecture 3 - Dummy Q-Learning

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Q-LearningReinforcement Learning(강화 학습)에서 Agent는 현재 State에서 Action을 취하기 전까지 다른 State에 대한 정보를 알지 못합니다 또한 Goal에 도달하기 전까지는 Reward가 0이기 때문에 Action이 좋은지 나쁜지 알 수 없습니다. 따라서 어떠한 Action을 취할지 결정하는 것은 매우 중요하다고 할 수 있습니다. 이러한 상황에서 Agent가 Action을 결정하는 것을 도와주는 함수를 Q-Function이라고 하고 다른말로는 State-Action Value Function이라고도 합니다. 이 함수는 현재의 State..

  • format_list_bulleted 모두를 위한 머신러닝과 딥러닝 강의-시즌 RL
  • · 2024. 7. 11.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (29)
    • 논문 Study (0)
      • 국제 저널 논문 요약 (0)
      • 국제 학회 논문 요약 (0)
    • 모델 Study (0)
    • 강의 Study (29)
      • 모두를 위한 머신러닝과 딥러닝 강의-시즌 1 (22)
      • 모두를 위한 머신러닝과 딥러닝 강의-시즌 RL (7)
최근 글
인기 글
최근 댓글
태그
  • #합성곱 신경망
  • #CNN
  • #convolutional neural network
  • #neural network
  • #cost function
  • #action
  • #RL
  • #state
  • #Q learning
  • #reinforcement learning
전체 방문자
오늘
어제
전체
05-10 17:24
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.