[Reinforcement Learning] Reinforcement Learning의 이해와 포괄적인 가이드

소개

현대 인공지능(AI)에서 빠르게 주목받으며 화제가 되고 있는 강화 학습(RL)의 매혹적인 세계에 오신 것을 환영합니다. 이 블로그 게시물은 강화 학습의 개념, 알고리즘 및 응용에 대한 포괄적인 이해를 제공하는 것을 목표로 합니다.

강화 학습은 에이전트(의사 결정 소프트웨어 프로그램)가 환경과 상호 작용하고 행동에 대한 보상 또는 페널티를 받음으로써 환경으로부터 학습할 수 있도록 하는 머신 러닝의 한 유형입니다. 개에게 새로운 트릭을 가르치는 것과 비슷합니다. 개가 여러 가지를 시도하고 원하는 것을 수행하면 보상을 주는 방식입니다. 시간이 지남에 따라 개는 어떤 행동이 보상을 받는지, 어떤 행동이 보상을 받지 못하는지 이해하여 해야 할 일과 하지 말아야 할 일을 배우게 됩니다.

RL의 장점은 자신의 행동과 경험을 통해 지속적으로 학습하고 개선할 수 있다는 점입니다. 따라서 적응형 실시간 의사 결정이 필요한 복잡한 문제를 해결하는 데 강력한 도구가 될 수 있습니다. 체스나 바둑과 같은 게임부터 자율주행차 제어, 투자 포트폴리오 관리에 이르기까지 RL은 다양한 분야에서 활용되고 있습니다.

이 블로그 게시물에서는 RL이 무엇인지, 다른 머신 러닝 기법과 어떻게 비교되는지, RL 문제를 공식화하는 방법과 RL에 사용되는 다양한 알고리즘에 대해 자세히 살펴볼 것입니다. 또한 RL의 실제 적용 사례를 살펴보고 이 흥미로운 분야에 대해 더 깊이 알아보고 싶은 분들을 위한 리소스도 제공할 예정입니다. 이제 강화 학습의 세계를 탐험하는 여정을 시작하세요!

강화 학습이란 무엇인가요?

강화 학습(RL)은 에이전트가 대화형 환경에서 자신의 행동과 경험에서 얻은 피드백을 사용하여 시행착오를 통해 학습할 수 있도록 하는 일종의 머신 러닝 기법입니다. 모든 자율 시스템이 될 수 있는 에이전트는 불확실하고 잠재적으로 복잡한 환경에서 목표를 달성하는 방법을 학습합니다. RL에서 에이전트는 환경 내에서 관찰하고 행동을 취하고 그 대가로 보상을 받습니다. 이 학습의 목표는 행동이라고 하는 최선의 결정을 내리는 방법을 학습하여 시간이 지남에 따라 가능한 한 가장 높은 총 보상을 얻는 것입니다.

이제 RL이 다른 머신 러닝 기술과 어떻게 비교되는지 궁금하실 것입니다. 지금부터 살펴보겠습니다:

지도 학습: 지도 학습에서 모델은 레이블이 지정된 데이터 세트에 대해 학습됩니다. 훈련 세트의 모든 입력에 대해 예상 출력이 있으며, 모델은 입력을 예상 출력에 매핑하는 방법을 학습합니다. 이와 달리 RL은 명시적인 레이블이 필요하지 않습니다. 대신 보상과 처벌을 통해 학습합니다. 에이전트에게 제공되는 피드백은 작업 수행을 위한 올바른 행동 집합이 아니라 긍정적이거나 부정적인 행동을 나타내는 신호입니다.
비지도 학습: 비지도 학습은 입력 데이터에서 패턴과 관계를 찾는 것을 목표로 합니다. 레이블이 지정된 데이터에 의존하지 않고 데이터 포인트 간의 유사점과 차이점을 찾습니다. 반면 RL은 에이전트의 총 누적 보상을 최대화할 수 있는 적합한 액션 모델을 찾는 것입니다.

RL의 핵심 구성 요소는 행동-보상 피드백 루프입니다. 에이전트는 환경과 상호 작용하고 보상 또는 페널티의 형태로 피드백을 받습니다. 이 피드백은 에이전트가 자신의 행동의 결과를 이해하고 그에 따라 향후 행동을 조정하는 데 도움이 됩니다. 시간이 지남에 따라 에이전트는 누적 보상을 극대화하는 결정을 내리는 방법을 학습합니다.

다음 섹션에서는 기본적인 강화 학습 문제를 공식화하는 방법과 관련된 핵심 요소를 이해하는 방법에 대해 자세히 살펴보겠습니다. 기대해 주세요!

기본 강화 학습 문제 공식화하기

강화 학습(RL)의 메커니즘을 제대로 이해하려면 몇 가지 핵심 개념을 이해하는 것이 중요합니다:

환경(Envrionment): 환경은 에이전트가 작동하고 상호 작용하는 세계입니다. 환경은 에이전트의 현재 상태와 행동을 입력으로 받아 에이전트의 보상과 다음 상태를 출력으로 제공합니다.
상태(State): 에이전트의 현재 상황 또는 상태입니다. 상담원이 상호작용하고 있는 환경의 현재 구성을 나타냅니다.
액션(Action): 액션은 에이전트가 수행할 수 있는 모든 가능한 동작의 집합입니다. RL의 맥락에서 액션은 에이전트가 환경의 각 단계에서 수행하기로 결정한 작업입니다. 에이전트가 취하는 액션은 환경의 상태를 변경하고 새로운 상태로 이어집니다. 행동의 선택과 실행은 에이전트가 받는 보상에 영향을 미칩니다.
보상(Reward): 에이전트가 환경으로부터 받는 피드백입니다. 에이전트가 자신의 행동에 대한 응답으로 받는 수치입니다. 에이전트의 궁극적인 목표는 시간 경과에 따른 누적 보상을 극대화하는 것입니다.
정책(Policy): 에이전트가 현재 상태를 기반으로 다음 행동을 결정하기 위해 사용하는 전략입니다. 즉, 상태와 행동 사이의 매핑으로 제공되는 에이전트의 행동입니다.
가치(Value): 단기 보상과 반대로 할인이 적용된 장기 예상 수익입니다. 에이전트가 상태 또는 상태-행동 쌍에서 시작하여 향후에 누적될 것으로 예상되는 총 보상 금액입니다.
에피소드(Episode): RL에서 에피소드는 종료 상태에서 끝나는 상태, 행동 및 보상의 시퀀스를 의미합니다. 예를 들어, 게임에서 에피소드는 게임의 초기 상태에서 시작하여 게임이 끝나면 끝납니다. 플레이한 각 게임은 하나의 에피소드로 간주됩니다. 에이전트의 학습은 여러 에피소드에 걸쳐 이루어질 수 있습니다.

이러한 개념을 설명하기 위해 고전 게임인 팩맨을 예로 들어 보겠습니다. 이 게임에서 그리드 세계는 환경이고, 상태는 그리드 내 팩맨의 위치입니다. 액션은 팩맨이 상하좌우로 움직일 수 있는 동작입니다. 보상은 팩맨이 음식을 먹거나(긍정적 보상) 유령에게 죽임을 당할 때(부정적 보상) 받습니다. 정책은 팩맨이 현재 상태에 따라 다음 동작을 결정하기 위해 사용하는 전략입니다. 값은 현재 상태 또는 상태-행동 쌍이 주어졌을 때 팩맨이 미래에 받을 것으로 예상되는 총 보상입니다. 게임의 시작부터 끝까지 각 라운드는 에피소드로 간주됩니다.

RL의 핵심 과제 중 하나는 탐사 대 착취의 트레이드오프입니다. 에이전트는 환경을 탐색하여 최적의 보상을 찾는 것(탐색)과 이미 얻은 지식을 활용하여 보상을 극대화하는 것(착취) 사이에서 행동의 균형을 맞춰야 합니다. 에이전트가 최적의 정책을 학습하려면 적절한 균형을 맞추는 것이 중요합니다.

RL을 위한 환경을 수학적으로 설명하기 위해 우리는 종종 마르코프 의사 결정 프로세스(MDP)라는 프레임워크를 사용합니다. MDP는 유한 환경 상태 집합, 각 상태에서 가능한 행동 집합, 실수값 보상 함수, 전환 모델로 구성됩니다. 그러나 많은 실제 시나리오에서 환경의 역학은 알 수 없으며, 이러한 문제를 해결하기 위해 Q-러닝과 같은 모델 없는 RL 방법을 사용합니다.

다음 섹션에서는 강화 학습에 사용되는 다양한 알고리즘에 대해 자세히 살펴보겠습니다. 기대해 주세요!

강화 학습 알고리즘

강화 학습은 에이전트가 경험을 통해 학습하는 데 도움이 되는 다양한 알고리즘으로 구동됩니다. 이 섹션에서는 몇 가지 기본 및 고급 RL 알고리즘에 대해 설명합니다.

Q-러닝과 SARSA

Q-러닝과 SARSA(상태-행동-보상-상태-행동)는 일반적으로 사용되는 두 가지 모델 없는 RL 알고리즘입니다. 둘 다 시간차 학습 방법으로, 현재 추정값 함수에서 부트스트랩을 통해 학습합니다.

Q-학습: 에이전트가 어떤 상태에 있고 어떤 행동을 취할 때의 가치(Q-값)를 미래의 최대 보상을 제공하는 행동을 기반으로 학습하는 오프-정책 방식입니다. 에이전트는 환경을 탐색하고 Q-값을 업데이트하여 현재 상태에서 시작하여 모든 연속 단계에 걸쳐 총 보상의 예상 가치를 최대화하는 정책을 찾습니다.
SARSA: Q-학습과 달리 SARSA는 에이전트가 현재 정책에서 파생된 현재 행동을 기반으로 Q-값을 학습하는 온-정책 방식입니다. 즉, Q값을 업데이트하는 데 사용되는 행동은 현재 정책이 지시하는 행동이지 반드시 미래 보상을 극대화하는 행동이 아닙니다.

Q-러닝과 SARSA의 주요 차이점은 Q-값을 업데이트하는 방식에 있습니다. Q-러닝은 보다 낙관적이며 확률적 환경에서 Q-값을 과대평가할 수 있는 반면, SARSA는 보다 보수적이며 정책의 무작위성을 고려합니다.

고급 알고리즘: 심층 Q 네트워크(DQN) 및 심층 결정론적 정책 그라데이션(DDPG)

Q-러닝과 SARSA는 기본적인 RL 알고리즘이지만, 고차원 상태 공간을 처리할 수 있는 기능이 부족합니다. 이 때문에 심층 Q 네트워크(DQN) 및 심층 결정론적 정책 그라데이션(DDPG)과 같은 고급 알고리즘이 등장했습니다.

심층 Q-네트워크(DQN): DQN은 신경망을 함수 근사치로 사용하여 Q값을 추정함으로써 Q-러닝을 확장합니다. 이를 통해 DQN은 고차원 상태 공간을 처리하고 보이는 상태에서 보이지 않는 상태로 Q값을 일반화할 수 있습니다. 그러나 DQN은 이산적이고 저차원적인 작업 공간만 처리할 수 있습니다.
심층 결정론적 정책 그라디언트(DDPG): DDPG는 고차원의 연속적인 작업 공간에서 정책을 학습하는 문제를 해결하는 알고리즘입니다. 이는 연속 공간에서 작동하도록 DQN을 확장하는 비정책, 모델 프리, 액터 크리티컬 알고리즘입니다.

다음 섹션에서는 이러한 강화 학습 알고리즘의 몇 가지 실제 적용 사례를 살펴보겠습니다. 기대해 주세요!

강화 학습의 실제 적용 사례

강화 학습(RL)은 다양한 영역에서 성공적으로 적용되어 그 다양성과 효과를 입증했습니다. 강화학습의 실제 적용 사례를 살펴봅니다:

게임플레이 및 로보틱스

RL의 가장 인기 있는 응용 분야 중 하나는 게임플레이와 로보틱스 분야입니다. RL 알고리즘은 게임 환경과 상호작용하고 받은 피드백을 통해 학습함으로써 게임 플레이를 학습할 수 있습니다.

예를 들어, 딥마인드에서 바둑을 두기 위해 개발한 컴퓨터 프로그램인 구글의 알파고 제로는 RL을 사용하여 처음부터 스스로를 훈련하여 초인적인 성능을 달성했습니다. 이 프로그램은 수백만 번의 대국을 통해 실수로부터 학습하고 시간이 지남에 따라 개선되었습니다.

RL은 에이전트가 화면의 픽셀 데이터를 기반으로 게임 플레이를 학습하는 아타리 게임에도 사용됩니다. 마찬가지로 주사위 놀이 게임에서 제럴드 테사우로의 TD-Gammon은 RL을 사용하여 인간 세계 챔피언과 비슷한 수준의 성능에 도달했습니다.

로봇 공학에서 RL은 로봇이 물체 조작, 이동, 탐색과 같은 작업을 수행하도록 훈련하는 데 사용됩니다. RL을 통해 로봇은 환경과의 상호 작용을 통해 학습하여 환경과 작업의 변화에 적응할 수 있습니다.

산업 자동화

산업 자동화 분야에서 RL은 프로세스를 최적화하고 효율성을 개선하는 데 사용됩니다. 예를 들어 창고에서 재고를 관리할 때 RL을 사용하면 에이전트가 수요 패턴에 따라 품목을 재입고하는 방법을 학습하여 품절 및 과잉 재고를 최소화할 수 있습니다.

기타 애플리케이션

이 외에도 RL은 다양한 영역에서 활용되고 있습니다:

텍스트 요약 엔진: RL은 에이전트가 가장 많은 정보를 전달하는 문장을 선택하는 방법을 학습하여 긴 문서의 요약을 생성하는 모델을 훈련하는 데 사용할 수 있습니다.
대화 에이전트: RL은 대화 에이전트나 챗봇이 인간과 대화를 이어갈 수 있도록 훈련하는 데 사용됩니다. 에이전트는 대화를 계속 이어가고 사용자의 의도를 만족시키는 응답을 생성하는 방법을 학습합니다.
헬스케어: 헬스케어 분야에서 RL은 환자를 위한 맞춤형 치료 계획을 수립하는 데 사용될 수 있습니다. 에이전트는 환자의 건강 상태와 다양한 치료의 예상 결과를 바탕으로 치료법을 추천하는 방법을 학습합니다.
온라인 주식 거래: RL은 주가 패턴을 기반으로 거래 결정을 내리는 데 사용할 수 있습니다. 에이전트는 총 수익을 극대화하기 위해 주식을 매수, 매도 또는 보유하는 방법을 학습합니다.

이는 RL을 적용할 수 있는 몇 가지 예에 불과합니다. RL의 잠재적 응용 분야는 방대하며 이 분야가 발전함에 따라 계속 성장하고 있습니다. 다음 섹션에서는 RL에 대해 더 자세히 알아보고 싶은 분들을 위해 몇 가지 리소스를 제공할 예정입니다. 기대해 주세요!

강화 학습 시작하기

강화 학습에 대해 더 자세히 알아보고 싶다면 기본 개념을 이해하고 자신만의 RL 에이전트를 구축하는 데 도움이 되는 다양한 리소스를 이용할 수 있습니다. 다음은 몇 가지 추천 자료입니다:

강화 학습의 기본 개념 이해하기

도서: “강화 학습: 리처드 S. 서튼과 앤드류 G. 바토의 ‘강화 학습: 입문’은 이 분야의 고전적인 텍스트로, RL의 개념에 대한 포괄적인 소개를 제공합니다.
온라인 강좌: Coursera의 “코더를 위한 실용적인 딥러닝"은 fast.ai의 RL에 대한 섹션을 포함합니다. 마찬가지로 조지아 공과대학교의 Udacity에서 제공하는 “강화 학습"도 훌륭한 강좌입니다.
연구 논문: 보다 심층적인 이해를 위해 연구 논문을 읽을 수 있습니다. 이 분야의 중요한 논문으로는 “심층 강화 학습으로 아타리 플레이하기”, “심층 강화 학습을 통한 인간 수준의 제어” 등이 있습니다.

RL 에이전트 구축 및 테스트하기

OpenAI Gym: OpenAI Gym은 RL 알고리즘을 개발하고 비교하는 데 사용할 수 있는 일련의 환경을 제공합니다. RL 에이전트 구축 및 테스트를 시작하기에 좋은 곳입니다.
RL 라이브러리: RL 알고리즘의 구현을 제공하는 여러 라이브러리가 있습니다. 인기 있는 라이브러리로는 Stable Baselines, TensorFlow 에이전트, Ray의 RLlib 등이 있습니다.
경연 대회: 경연 대회에 참가하는 것은 RL 지식을 적용하는 좋은 방법이 될 수 있습니다. Kaggle은 종종 RL 경진 대회를 주최하며, NeurIPS 컨퍼런스에서는 매년 다양한 RL 문제에 대한 경진 대회가 열립니다.

RL을 배우는 가장 좋은 방법은 알고리즘을 구현하고 실험해 보는 것임을 잊지 마세요. 손을 더럽히고 실수하는 것을 두려워하지 마세요. 그것이 바로 학습이 일어나는 방식입니다!

다음 섹션에서는 강화 학습에 대한 논의를 마무리하겠습니다. 기대해 주세요!

결론

강화 학습(RL)에 대한 탐구는 먼 길을 걸어왔습니다. 먼저 RL이 무엇이며 다른 머신러닝 기법과 어떻게 다른지 이해하는 것부터 시작했습니다. 그런 다음 환경, 상태, 보상, 정책, 가치와 같은 주요 용어에 대해 논의하면서 기본적인 RL 문제를 공식화하는 과정을 살펴봤습니다. 또한 탐사 대 착취의 트레이드오프와 마르코프 의사 결정 프로세스의 개념에 대해서도 살펴봤습니다.

그런 다음 Q-러닝, SARSA, 심층 Q-네트워크(DQN), 심층 결정론적 정책 그라디언트(DDPG) 등 몇 가지 기본 및 고급 RL 알고리즘을 살펴봤습니다. 이러한 알고리즘이 RL의 학습 프로세스를 어떻게 강화하는지 살펴봤습니다.

또한 게임플레이, 로보틱스, 산업 자동화 등 RL의 실제 적용 사례에 대해서도 논의했습니다. 의료, 주식 거래, 텍스트 요약 등 다양한 분야에서 RL이 어떻게 활용되고 있는지 살펴봤습니다.

마지막으로, 강화 학습에 대해 더 자세히 알아보고 자신만의 강화 학습 에이전트를 구축하는 데 관심이 있는 분들을 위해 몇 가지 리소스를 제공했습니다.

강화 학습은 엄청난 잠재력을 가진 방대하고 흥미로운 분야입니다. RL을 배우는 여정은 도전과 보람으로 가득합니다. 더 깊이 파고들수록 더 복잡한 개념과 알고리즘을 발견하게 될 것입니다. 하지만 모든 전문가가 한때는 초보자였다는 사실을 기억하세요. 그러니 복잡하다고 주눅 들지 마세요. 학습 과정을 받아들이고, 실험하고, 실수하고, 계속 개선해 나가세요.

RL의 세계는 여러분의 탐험을 기다리고 있습니다. 이제 바로 시작하여 학습을 시작하세요!

다음은 실제 애플리케이션에서 사용되는 강화 학습(RL)의 몇 가지 실제 사례입니다:

자동화된 로봇: RL은 로봇이 복잡하거나 위험하거나 지루한 작업을 수행하도록 훈련시키는 데 사용됩니다. 예를 들어, 복잡한 환경을 탐색하거나 특정 방식으로 물체를 조작하도록 로봇을 훈련하는 데 RL을 사용할 수 있습니다.
자연어 처리: RL은 대화 시스템이나 텍스트 요약과 같은 다양한 자연어 처리(NLP) 작업에 사용됩니다. 예를 들어, RL은 챗봇을 훈련시켜 사용자에게 더 매력적이고 관련성 높은 응답을 생성하는 데 사용할 수 있습니다.
마케팅 및 광고: RL은 마케팅 및 광고 캠페인을 개인화하는 데 사용할 수 있습니다. 예를 들어, RL 에이전트는 클릭률이나 전환을 극대화하기 위해 적절한 사용자에게 적절한 광고를 적시에 표시하는 방법을 학습할 수 있습니다.
이미지 처리: RL은 객체 감지 및 이미지 분할과 같은 이미지 처리 작업에 사용될 수 있습니다. 예를 들어, RL 에이전트는 이미지에서 가장 유익한 부분에 집중하는 방법을 학습하여 객체 감지 시스템의 성능을 향상시킬 수 있습니다.
추천 시스템: RL은 사용자에게 개인화된 추천을 제공하기 위해 추천 시스템에 사용됩니다. 예를 들어, RL 에이전트는 사용자 참여와 판매를 극대화하는 제품을 추천하는 방법을 학습할 수 있습니다.
게임: RL은 초인적인 수준의 게임을 플레이할 수 있는 에이전트를 훈련하는 데 사용되었습니다. 보드 게임 바둑에서 세계 챔피언이 된 알파고와 비디오 게임 도타 2를 높은 수준으로 플레이하는 데 RL을 사용한 오픈AI 파이브가 그 예입니다.
에너지 절약: RL은 건물과 데이터 센터의 에너지 소비를 관리하는 데 사용될 수 있습니다. 예를 들어, RL 에이전트는 필요한 온도를 유지하면서 에너지 소비를 최소화하기 위해 데이터 센터의 냉각 시스템을 조정하는 방법을 학습할 수 있습니다.
교통 제어: RL은 교통 신호 타이밍을 최적화하여 교통 흐름을 개선하고 혼잡을 줄이는 데 사용할 수 있습니다. 예를 들어, RL 에이전트는 현재 교통 상황에 따라 신호 타이밍을 조정하여 모든 차량의 총 대기 시간을 최소화하는 방법을 학습할 수 있습니다.
자율주행 자동차: RL은 궤적 최적화, 모션 계획, 컨트롤러 최적화 등 자율주행의 다양한 측면에 사용됩니다. 예를 들어, RL 에이전트는 시뮬레이션 환경에서 자동차 운전을 학습한 다음 이 정책을 실제 자동차에 적용할 수 있습니다.

이러한 예는 복잡한 실제 문제를 해결하는 데 있어 RL의 다양성과 잠재력을 보여줍니다. RL 분야가 계속 발전함에 따라 앞으로 더욱 흥미로운 애플리케이션이 등장할 것으로 기대됩니다.

강화 학습에 관해 자주 묻는 질문

강화 학습이란 무엇인가요? 강화 학습(RL)은 에이전트가 환경과 상호 작용하여 의사 결정을 내리는 방법을 학습하는 머신 러닝의 한 유형입니다. 에이전트는 자신의 행동에 대한 보상 또는 페널티를 받고 시간이 지남에 따라 총 보상을 최대화하는 것을 목표로 합니다.
강화 학습은 다른 유형의 머신 러닝과 어떻게 다른가요? 강화 학습은 지도 학습과 달리 명시적인 레이블이 필요하지 않습니다. 대신 보상과 처벌을 통해 학습합니다. 입력 데이터에서 패턴을 찾는 비지도 학습과 달리 RL은 총 누적 보상을 극대화하는 적합한 액션 모델을 찾는 것입니다.
강화 학습의 적용 사례에는 어떤 것이 있나요? 강화학습은 게임 플레이, 로봇 공학, 산업 자동화, 헬스케어, 주식 거래, 텍스트 요약 등 다양한 분야에 적용되고 있습니다. 예를 들어, 구글의 알파고 제로는 RL을 사용하여 초인적인 수준으로 바둑을 두도록 스스로를 훈련시켰습니다.
일반적인 강화 학습 알고리즘에는 어떤 것이 있나요? 몇 가지 일반적인 RL 알고리즘에는 Q-러닝, SARSA, 심층 Q-네트워크(DQN), 심층 결정론적 정책 그라데이션(DDPG)이 있습니다. 이러한 알고리즘은 에이전트가 경험을 통해 학습하고 시간이 지남에 따라 정책을 개선하는 데 도움이 됩니다.
강화 학습에서 탐색과 익스플로잇의 트레이드오프는 무엇인가요? 탐색과 착취의 트레이드오프는 강화 학습의 핵심 과제입니다. 에이전트는 환경을 탐색하여 최상의 보상을 찾는 것(탐색)과 이미 얻은 지식을 활용하여 보상을 극대화하는 것(활용) 사이에서 행동의 균형을 맞춰야 합니다.
마르코프 의사결정 프로세스(MDP)란 무엇인가요? 마르코프 의사결정 과정(MDP)은 RL 환경을 설명하는 데 사용되는 수학적 프레임워크입니다. MDP는 유한 환경 상태 집합, 각 상태에서 가능한 행동 집합, 실수값 보상 함수, 전이 모델로 구성됩니다.
강화 학습에 대해 자세히 알아볼 수 있는 리소스에는 어떤 것이 있나요? 추천 리소스로는 리처드 S. S. 스미스가 쓴 “강화 학습: 입문”, fast.ai의 “코더를 위한 실용적인 딥 러닝”, 조지아 공과대학교의 “강화 학습” 등의 온라인 강좌와 Udacity의 “강화 학습”, RL 에이전트 구축 및 테스트를 위한 OpenAI Gym과 같은 실용적인 도구가 있습니다.
Q-러닝이란 무엇인가요? Q-러닝은 에이전트가 향후 최대 보상을 제공하는 행동을 기반으로 어떤 상태에 있고 어떤 행동을 취할 때의 가치, 즉 Q-값을 학습하는 비정책 RL 방식입니다.
SARSA란 무엇인가요? SARSA(상태-행동-보상-상태-행동)는 에이전트가 현재 정책에서 파생된 현재 행동을 기반으로 Q-값을 학습하는 온-정책 RL 방식입니다.
딥 Q 네트워크(DQN)와 심층 결정론적 정책 그라데이션(DDPG)이란 무엇인가요? DQN은 신경망을 사용하여 Q값을 추정함으로써 Q-러닝을 확장하여 고차원 상태 공간을 처리할 수 있도록 합니다. DDPG는 고차원의 연속적인 작업 공간에서 정책을 학습하는 문제를 해결하는 알고리즘입니다. 이는 연속 공간에서 작동하도록 DQN을 확장하는 오프정책, 모델 프리, 액터 크리티컬 알고리즘입니다.