°£Æí°áÁ¦, ½Å¿ëÄ«µå û±¸ÇÒÀÎ
ÀÎÅÍÆÄÅ© ·Ôµ¥Ä«µå 5% (30,400¿ø)
(ÃÖ´ëÇÒÀÎ 10¸¸¿ø / Àü¿ù½ÇÀû 40¸¸¿ø)
ºÏÇǴϾð ·Ôµ¥Ä«µå 30% (22,400¿ø)
(ÃÖ´ëÇÒÀÎ 3¸¸¿ø / 3¸¸¿ø ÀÌ»ó °áÁ¦)
NH¼îÇÎ&ÀÎÅÍÆÄÅ©Ä«µå 20% (25,600¿ø)
(ÃÖ´ëÇÒÀÎ 4¸¸¿ø / 2¸¸¿ø ÀÌ»ó °áÁ¦)
Close

°­È­ÇнÀ °³³ä ¹× »ê¾÷ÇöÀåÀÇ Àû¿ë»ç·Ê

¿øÁ¦ : Reinforcement Learning
¼Òµæ°øÁ¦

2013³â 9¿ù 9ÀÏ ÀÌÈÄ ´©Àû¼öÄ¡ÀÔ´Ï´Ù.

ÆǸÅÁö¼ö 72
?
ÆǸÅÁö¼ö¶õ?
»çÀÌÆ®ÀÇ ÆǸŷ®¿¡ ±â¹ÝÇÏ¿© ÆǸŷ® ÃßÀ̸¦ ¹Ý¿µÇÑ ÀÎÅÍÆÄÅ© µµ¼­¿¡¼­ÀÇ µ¶¸³ÀûÀÎ ÆǸŠÁö¼öÀÔ´Ï´Ù. ÇöÀç °¡Àå Àß Æȸ®´Â »óÇ°¿¡ °¡ÁßÄ¡¸¦ µÎ¾ú±â ¶§¹®¿¡ ½ÇÁ¦ ´©Àû ÆǸŷ®°ú´Â ´Ù¼Ò Â÷ÀÌ°¡ ÀÖÀ» ¼ö ÀÖ½À´Ï´Ù. ÆǸŷ® ¿Ü¿¡µµ ´Ù¾çÇÑ °¡ÁßÄ¡·Î ±¸¼ºµÇ¾î ÃÖ±ÙÀÇ À̽´µµ¼­ È®Àνà À¯¿ëÇÒ ¼ö ÀÖ½À´Ï´Ù. ÇØ´ç Áö¼ö´Â ¸ÅÀÏ °»½ÅµË´Ï´Ù.
Close
°øÀ¯Çϱâ
Á¤°¡

32,000¿ø

  • 32,000¿ø

    960P (3%Àû¸³)

ÇÒÀÎÇýÅÃ
Àû¸³ÇýÅÃ
  • S-Point Àû¸³Àº ¸¶ÀÌÆäÀÌÁö¿¡¼­ Á÷Á¢ ±¸¸ÅÈ®Á¤ÇϽŠ°æ¿ì¸¸ Àû¸³ µË´Ï´Ù.
Ãß°¡ÇýÅÃ
¹è¼ÛÁ¤º¸
  • 5/2(¸ñ) À̳» ¹ß¼Û ¿¹Á¤  (¼­¿ï½Ã °­³²±¸ »ï¼º·Î 512)
  • ¹«·á¹è¼Û
ÁÖ¹®¼ö·®
°¨¼Ò Áõ°¡
  • À̺¥Æ®/±âȹÀü

  • ¿¬°üµµ¼­

  • »óÇ°±Ç

AD

Ã¥¼Ò°³

ÀÌ Ã¥Àº °­È­ÇнÀ °³³ä ¹× »ê¾÷ÇöÀåÀÇ Àû¿ë»ç·Ê¿¡ ´ëÇØ ´Ù·é µµ¼­ÀÔ´Ï´Ù. ±âÃÊÀûÀÌ°í Àü¹ÝÀûÀÎ ³»¿ëÀ» ÇнÀÇÒ ¼ö ÀÖ½À´Ï´Ù.

¸ñÂ÷

CHAPTER 1 ¿Ö °­È­ ÇнÀÀΰ¡?
1.1 ¿Ö Áö±Ý °­È­ ÇнÀÀÌ ÇÊ¿äÇÑ°¡?
1.2 ±â°è ÇнÀ
1.3 °­È­ ÇнÀ
1.3.1 ¾ðÁ¦ °­È­ ÇнÀÀ» »ç¿ëÇØ¾ß ÇÒ±î?
1.3.2 °­È­ ÇнÀÀ» Àû¿ëÇÑ ¾îÇø®ÄÉÀ̼Ç
1.4 RL Á¢±Ù ¹æ½ÄÀÇ ºÐ·ù
1.4.1 Model-Free or Model-based
1.4.2 ¿¡ÀÌÀüÆ®°¡ Àü·«À» »ç¿ëÇÏ°í ¾÷µ¥ÀÌÆ®ÇÏ´Â ¹æ¹ý
1.4.3 ÀÌ»ê(Discrete) ȤÀº ¿¬¼Ó(Continuous) Çൿ
1.4.4 ÃÖÀûÈ­ ¹æ¹ý
1.4.5 Á¤Ã¥ Æò°¡¿Í °³¼±
1.5 °­È­ ÇнÀÀÇ ±âº» °³³ä
1.5.1 ù ¹ø° °­È­ ÇнÀ ¾Ë°í¸®Áò
1.5.2 RLÀº ML°ú µ¿ÀÏÇմϱî?
1.5.3 º¸»ó°ú Çǵå¹é
1.6 Çй®À¸·Î¼­ÀÇ °­È­ÇнÀ
1.7 ¿ä¾à
1.8 Ãß°¡ ÀÚ·á
Reference

CHAPTER 2 ¸¶¸£ÄÚÇÁ °áÁ¤ ÇÁ·Î¼¼½º , µ¿Àû ÇÁ·Î±×·¡¹Ö°ú ¸óÅ×Ä«¸¦·Î ¹æ¹ý
2.1 Multi-Arm Bandit Å×½ºÆ®Çϱâ
2.1.1 º¸»ó ¿£Áö´Ï¾î¸µ
2.1.2 Á¤Ã¥ Æò°¡: °¡Ä¡ ÇÔ¼ö
2.1.3 Á¤Ã¥ °³¼±: ÃÖ°í Çൿ ¼±ÅÃ
2.1.4 ½Ã¹Ä·¹ÀÌ¼Ç È¯°æ
2.1.5 ½ÇÇè ½ÇÇà
2.1.6 ¥å-greedy ¾Ë°í¸®Áò °³¼±Çϱâ
2.2 ¸¶¸£ÄÚÇÁ ÀÇ»ç °áÁ¤ ÇÁ·Î¼¼½º(Markov Decision Process)
2.2.1 Á¦°í °ü¸®
2.2.2 Á¦°í °ü¸® ½Ã¹Ä·¹À̼Ç
2.3 Á¤Ã¥°ú °¡Ä¡ ÇÔ¼ö
2.3.1 °¨°¡µÈ º¸»ó
2.3.2 »óÅÂ-°¡Ä¡ ÇÔ¼ö·Î º¸»ó ¿¹Ãø
2.3.3 Çൿ-°¡Ä¡ ÇÔ¼ö·Î º¸»ó ¿¹ÃøÇϱâ
2.3.4 ÃÖÀûÀÇ Á¤Ã¥
2.4 ¸óÅ×Ä«¸¦·Î Á¤Ã¥ »ý¼º
2.5 µ¿Àû ÇÁ·Î±×·¡¹ÖÀ» »ç¿ëÇÑ °¡Ä¡ ¹Ýº¹
2.5.1 °¡Ä¡ ¹Ýº¹ ±¸Çö
2.5.2 °¡Ä¡ ¹Ýº¹ °á°ú
2.6 ¿ä¾à
2.7 Ãß°¡ ÀÚ·á
Reference

CHAPTER 3 ½Ã°£Â÷ ÇнÀ, Q-learning ¹× £¿-½ºÅÜ ¾Ë°í¸®Áò
3.1 ½Ã°£Â÷ ÇнÀÀÇ Á¤ÀÇ
3.2 Q-·¯´×(Q-learning)
3.3 SARSA
3.4 Q-·¯´×°ú SARSA ºñ±³
3.5 ¿¬±¸ »ç·Ê: ¾îÇø®ÄÉÀÌ¼Ç ÄÁÅ×ÀÌ³Ê ÀÚµ¿ È®ÀåÀ» ÅëÇÑ ºñ¿ë Àý°¨
3.6 »ê¾÷ Àû¿ë »ç·Ê: ±¤°í ½Ç½Ã°£ ÀÔÂû
3.6.1 MDP Á¤ÀÇ
3.6.2 ½Ç½Ã°£ ÀÔÂû ȯ°æÀÇ °á°ú
3.6.3 Ãß°¡ °³¼± »çÇ×
3.7 Q-·¯´×ÀÇ È®Àå
3.7.1 ´õºí Q-·¯´×(Double Q-learning)
3.7.2 Áö¿¬ Q-·¯´×(Delayed Q-learning)
3.7.3 Ç¥ÁØ, ´õºí, Áö¿¬ Q-·¯´× ºñ±³
3.7.4 ´ë¸³ÇнÀ(Opposition Learning)
3.8 n-½ºÅÜ(n-Step) ¾Ë°í¸®Áò
3.9 ±×¸®µå ȯ°æ¿¡¼­ £¿-½ºÅÜ ¾Ë°í¸®Áò
3.10 Ÿ´ç¼º ÃßÀû(eligibility traces)
3.11 Ÿ´ç¼º ÃßÀûÀÇ È®Àå
3.11.1 Watkins¡¯s Q(¥ë)
3.11.2 Fuzzy wipes in Watkins¡¯s Q(¥ë)
3.11.3 ºü¸¥ Q-·¯´×(Speedy Q-Learning)
3.11.4 Ÿ´ç¼º ÃßÀûÀÇ ÀúÀå°ú ´ëü
3.12 ¿ä¾à
3.13 Ãß°¡ ÀÚ·á
Reference

CHAPTER 4 ½ÉÃþ Q-³×Æ®¿öÅ©(Deep Q-Networks, DQN)
4.1 µö·¯´× ±¸Á¶
4.1.1 µö·¯´×ÀÇ ±âº»ÀûÀÎ ±¸Á¶
4.1.2 ¸¹ÀÌ »ç¿ëÇÏ´Â ½Å°æ¸Á ±¸Á¶
4.1.3 µö·¯´× ÇÁ·¹ÀÓ¿öÅ©
4.1.4 ½ÉÃþ °­È­ÇнÀ
4.2 ½ÉÃþ Q-·¯´×(Deep Q-Learning)
4.2.1 °æÇè Àç»ý(Experience Replay)
4.2.2 Q-³×Æ®¿öÅ© º¹Á¦
4.2.3 ´º·² ³×Æ®¿öÅ© ±¸Á¶
4.2.4 DQN ±¸Çö
4.2.5 ¿¹Á¦: CartPole ȯ°æ¿¡¼­ DQN
4.2.6 ¿¬±¸ »ç·Ê: ºôµùÀÇ ¿¡³ÊÁö »ç¿ë °¨¼Ò
4.3 Rainbow DQN
4.3.1 ºÐ»ê °­È­ÇнÀ(Distributional RL)
4.3.2 ¿ì¼± ¼øÀ§ ±â¹Ý °æÇè Àç»ý(Prioritized Experience Replay, PER)
4.3.3 ³ëÀÌÁö ³×Æ®(Noisy Nets)
4.3.4 µà¾ó¸µ ³×Æ®¿öÅ©(Dueling Networks)
4.4 ¿¹Á¦: Rainbow DQNÀÇ Atrai Games Àû¿ë
4.4.1 °á°ú
4.4.2 Ãß°¡·Î ³íÀÇÇÒ ºÎºÐ
4.5 ´Ù¸¥ DQN ±¸Çö
4.5.1 ŽÇè °³¼±
4.5.2 º¸»ó °³¼±
4.5.3 ¿ÀÇÁ¶óÀÎ µ¥ÀÌÅÍ·Î ÇнÀÇϱâ
4.6 ¿ä¾à
4.7 Ãß°¡ ÀÚ·á
Reference

CHAPTER 5 Á¤Ã¥ ±â¿ï±â ¸Þ¼Òµå
5.1 Á¤Ã¥ Á÷Á¢ ÇнÀÀÇ ÀåÁ¡
5.2 Á¤Ã¥ÀÇ ±â¿ï±â¸¦ °è»êÇÏ´Â ¹æ¹ý
5.3 Á¤Ã¥ ±â¿ï±â(Policy Gradient) ÀÌ·Ð
5.4 Á¤Ã¥ ÇÔ¼ö(Policy Functions)
5.4.1 ¼±ÇüÀûÀÎ Á¤Ã¥(Linear Policies)
5.4.2 ÀÓÀÇÀÇ Á¤Ã¥(Arbitrary Policies)
5.5 ±âº» ±¸Çö(Basic Implementations)
5.5.1 ¸óÅ× Ä«¸¦·Î(REINFORCE)
5.5.2 º£À̽º¶óÀÎÀ» °¡Áø REINFORCE
5.5.3 ±â¿ï±â ºÐ»ê °¨¼Ò
5.5.4 £¿-½ºÅÜ ¾×ÅÍ-Å©¸®Æ½°ú ÀÌµæ ¾×ÅÍ-Å©¸®Æ½(Advantage Actor-Critic, A2C)
5.5.5 ¾×ÅÍ-Å©¸®Æ½ÀÇ Å¸´ç¼º ÃßÀû(Eligibility Traces)
5.5.6 ±âº» Á¤Ã¥ ±â¿ï±â ¾Ë°í¸®Áò ºñ±³
5.6 »ê¾÷ Àû¿ë »ç·Ê: ¼ÒºñÀÚ¸¦ À§ÇÑ ÀÚµ¿ ¹°Ç° ±¸¸Å
5.6.1 ȯ°æ: Gym-Shopping-Cart
5.6.2 ±â´ëÄ¡
5.6.3 Shopping Cart ȯ°æÀÇ °á°ú
5.7 ¿ä¾à
5.8 Âü°í ÀÚ·á
Reference

CHAPTER 6 Á¤Ã¥ ±â¿ï±â¸¦ ³Ñ¾î
6.1 Off-Policy ¾Ë°í¸®Áò
6.1.1 Áß¿äµµ »ùÇøµ(Importance Sampling)
6.1.2 Çൿ°ú ŸÄÏ Á¤Ã¥
6.1.3 Off-Policy Q-·¯´×
6.1.4 ±â¿ï±â ½Ã°£Â÷(Gradient Temporal-Difference, GTD) ÇнÀ
6.1.5 Ž¿åÀû-GQ
6.1.6 Off-Policy ¾×ÅÍ-Å©¸®Æ½
6.2 °áÁ¤·ÐÀû Á¤Ã¥ ±â¿ï±â
6.2.1 °áÁ¤·ÐÀû Á¤Ã¥ ±â¿ï±â
6.2.2 ½ÉÃþ °áÁ¤·ÐÀû Á¤Ã¥ ±â¿ï±â(Deep Deterministic Policy Gradients, DDPG)
6.2.3 ÀÌÁß Áö¿¬µÈ ½ÉÃþ °áÁ¤·ÐÀû Á¤Ã¥ ±â¿ï±â(Twin Delayed DDPG, TD3)
6.2.4 ¿¬±¸ »ç·Ê: ¸®ºä¸¦ È°¿ëÇÑ Ãßõ
6.2.5 DPGÀÇ °³¼±
6.3 ½Å·Ú ¿µ¿ª ¹æ¹ý(Trust Region Methods)
6.3.1 Äð¹é-¶óÀÌºí·¯(Kullback Leibler, KL) ¹ß»ê
6.3.2 ÀÚ¿¬ Á¤Ã¥ ±â¿ï±â(Natural Policy Gradients)¿Í ½Å·Ú ¿µ¿ª Á¤Ã¥ ÃÖÀûÈ­(Trust Region
Policy Optimization)
6.3.3 ±ÙÁ¢ Á¤Ã¥ ÃÖÀûÈ­(Proximal Policy Optimization, PPO)
6.4 ¿¹Á¦: ½ÇÁ¦ ȯ°æ¿¡¼­ ¿øÇÏ´Â °÷¿¡ µµ´ÞÇϱâ À§ÇÑ ¼­º¸ ¸ðÅÍ È°¿ëÇϱâ
6.4.1 ȯ°æ ¼³Á¤
6.4.2 °­È­ÇнÀ ¾Ë°í¸®Áò ±¸Çö
6.4.3 ¾Ë°í¸®ÁòÀÇ º¹À⼺ Áõ°¡½ÃÅ°±â
6.4.4 ½Ã¹Ä·¹À̼ǿ¡¼­ ÇÏÀÌÆÛÆĶó¹ÌÅÍ Á¶Á¤
6.4.5 Á¤Ã¥µéÀÇ °á°ú
6.5 ±× ¹ÛÀÇ ´Ù¸¥ Á¤Ã¥ ±â¿ï±â ¾Ë°í¸®Áòµé
6.5.1 ¸®Æ®·¹À̽º(¥ë)
6.5.2 °æÇè Àç»ý ¾×ÅÍ-Å©¸®Æ½(Actor-Critic with Experience Replay, ACER)
6.5.3 Kronecker-Factored ½Å·Ú ¿µ¿ªÀ» È°¿ëÇÑ ¾×ÅÍ Å©¸®Æ½(Actor-Critic Using Kronecker-Factored Trust Regions, ACKTR)
6.5.4 °­Á¶Àû ¹æ¹ý
6.6 Á¤Ã¥ ±â¿ï±â ¾Ë°í¸®ÁòµéÀÇ È®Àå
6.6.1 Á¤Ã¥ ±â¿ï±â ¾Ë°í¸®ÁòµéÀÇ ºÐÀ§¼ö ȸ±Í(Quantile Regression in Policy Gradient
Algorithms)
6.7 ¿ä¾à
6.7.1 ¾î¶² ¾Ë°í¸®ÁòÀ» »ç¿ëÇØ¾ß ÇÒ±î?
6.7.2 ºñµ¿±âÀû ¹æ¹ý
6.8 Âü°í ¹®Çå
Reference

CHAPTER 7 ¿£Æ®·ÎÇÇ ¹æ¹ý°ú ¿¬°üµÈ Á¤Ã¥ ¸ðµÎ ¹è¿ì±â
7.1 ¿£Æ®·ÎÇÇ(Entropy)¶õ ¹«¾ùÀϱî?
7.2 ÃÖ´ë ¿£Æ®·ÎÇÇ °­È­ÇнÀ
7.3 ¼ÒÇÁÆ® ¾×ÅÍ-Å©¸®Æ½(Soft Actor-Critic, SAC)
7.3.1 SAC ±¸Çö ¼¼ºÎ»çÇ×°ú ÀÌ»ê Çൿ °ø°£
7.3.2 ÀÚµ¿ ¿Âµµ ¸Å°³º¯¼ö Á¶Á¤
7.3.3 ¿¬±¸ »ç·Ê: ÀÚµ¿È­µÈ ±³Åë °ü¸®¸¦ ÅëÇÑ ´ë±â ÁÙ °¨¼Ò
7.4 ÃÖ´ë ¿£Æ®·ÎÇÇ ¹æ¹ýµéÀÇ È®Àå
7.4.1 ´Ù¸¥ ¿£Æ®·ÎÇÇ ÃøÁ¤ ¹æ¹ýµé(±×¸®°í ¾Ó»óºí)
7.4.2 ´õºí Q-·¯´×ÀÇ »óÇÑ°ªÀ» »ç¿ëÇÑ ³«°üÀû ŽÇè(Optimistic Exploration)
7.4.3 °æÇè Àç»ý(Experience Replay)ÀÇ Á¶Á¤
7.4.4 ºÎµå·¯¿î Á¤Ã¥ ±â¿ï±â
7.4.5 ºÎµå·¯¿î Q-·¯´×(Soft Q-Learning)°ú ±× À¯µµ
7.4.6 °æ·Î ÀÏ°ü¼º ÇнÀ(Path Consistency Learning)
7.5 ¼º´É ºñ±³: SAC vs PPO
7.6 ¾î¶»°Ô ¿£Æ®·ÎÇÇ°¡ ŽÇèÀ» Àå·Á½Ãų±î?
7.6.1 ¿Âµµ ¸Å°³º¯¼ö´Â ŽÇèÀ» ¾î¶»°Ô º¯È­½Ãų±î?
7.7 »ê¾÷ Àû¿ë »ç·Ê: ¿ø°Ý Â÷ ¿îÀü ¹è¿ì±â
7.7.1 ¹®Á¦ Á¤ÀÇ
7.7.2 ÈÆ·Ã ½Ã°£ ÃÖ¼ÒÈ­
7.7.3 ±ØÀûÀÎ Çൿµé
7.7.4 ÇÏÀÌÆÛÆĶó¹ÌÅÍ Å½»ö
7.7.5 ÃÖÁ¾ Á¤Ã¥
7.7.6 Ãß°¡Àû °³¼± »çÇ×
7.8 ¿ä¾à
7.8.1 Á¤Ã¥ ±â¿ï±â¿Í ºÎµå·¯¿î Q-·¯´× °£ÀÇ µî°¡¼º
7.8.2 ÀÌ°ÍÀÌ ¹Ì·¡¿¡ ÀǹÌÇÏ´Â ¹Ù´Â?
7.8.3 ÀÌ°ÍÀÌ ÇöÀç¿¡ ÀǹÌÇÏ´Â ¹Ù´Â?
Reference

CHAPTER 8 ¿¡ÀÌÀüÆ® ÇнÀ ¹æ¹ý °³¼±
8.1 MDP¿¡ ´ëÇÑ Àç°í
8.1.1 ºÎºÐÀûÀ¸·Î °üÂû °¡´ÉÇÑ ¸¶¸£ÄÚÇÁ °áÁ¤ ÇÁ·Î¼¼½º(Partially Observable Markov
Decision Process, POMDP)
8.1.2 ¿¬±¸ »ç·Ê: ÀÚÀ²ÁÖÇàÂ÷¿¡¼­ POMDP »ç¿ë
8.1.3 »óȲº° ¸¶¸£ÄÚÇÁ ÀÇ»ç °áÁ¤ ÇÁ·Î¼¼½º
8.1.4 º¯°æ ÇൿÀÌ ÀÖ´Â MDP
8.1.5 Á¤±ÔÈ­µÈ MDP
8.2 °èÃþÀû °­È­ ÇнÀ(Hierarchical Reinforcement Learning)
8.2.1 Naive °èÃþÀû °­È­ ÇнÀ
8.2.2 ³»ÀçÀû º¸»óÀÌ ÀÖ´Â °í-Àú ¼öÁØ °èÃþ ±¸Á¶(HIRO)
8.2.3 ÇнÀ ±â¼ú ¹× ºñÁöµµ RL
8.2.4 HRL¿¡¼­ ±â¼ú »ç¿ëÇϱâ
8.2.5 HRL °á·Ð
8.3 ´ÙÁß ¿¡ÀÌÀüÆ® °­È­ ÇнÀ(Multi-Agent Reinforcement Learning)
8.3.1 MARL ÇÁ·¹ÀÓ¿öÅ©
8.3.2 Áß¾ÓÁýÁß½Ä È¤Àº ºñÁß¾ÓÁýÁß½Ä
8.3.3 ´ÜÀÏ ¿¡ÀÌÀüÆ® ¾Ë°í¸®Áò
8.3.4 ¿¬±¸ »ç·Ê : UAV¿¡¼­ ½Ì±Û ¿¡ÀÌÀüÆ® ºÐ»ê ÇнÀ »ç¿ë
8.3.5 Áß¾Ó ÁýÁᫎ ÈÆ·Ã, ºñ Áß¾Ó ÁýÁß½Ä(ºÐ»ê) ½ÇÇà
8.3.6 ºñÁß¾Ó ÁýÁß½Ä(ºÐ»ê/Å»Áß¾Ó½Ä) ÇнÀ
8.3.7 ´Ù¸¥ Á¶ÇÕ ¹æ¹ý
8.3.8 MARLÀÇ °úÁ¦
8.3.9 MARLÀÇ °á·Ð
8.4 Àü¹®°¡ÀÇ °¡À̵å
8.4.1 Çൿ º¹Á¦
8.4.2 ¸ð¹æ RL
8.4.3 Inverse RL
8.4.4 Ä¿¸®Å§·³ RL
8.5 »õ·Î¿î Æз¯´ÙÀÓ
8.5.1 ¸ÞŸ ÇнÀ(Meta-Learning)
8.5.2 ÀüÀÌ ÇнÀ(Transfer Learning)
8.6 ¿ä¾à
8.7 Ãß°¡ ÀÚ·á
Reference

CHAPTER 9 ½Ç¿ëÀûÀÎ °­È­ ÇнÀ
9.1 RL ÇÁ·ÎÁ§Æ® ¶óÀÌÇÁ »çÀÌŬ
9.1.1 ¶óÀÌÇÁ »çÀÌŬ Á¤ÀÇ
9.2 ¹®Á¦ Á¤ÀÇ: RL ÇÁ·ÎÁ§Æ®¶õ ¹«¾ùÀԴϱî?
9.2.1 ¼øÂ÷ÀûÀÎ RL ¹®Á¦µé
9.2.2 Àü·«ÀûÀÎ RL ¹®Á¦µé
9.2.3 Àú¼öÁØ RL ÁöÇ¥
9.2.4 ÇнÀÀÇ Á¾·ù
9.3 RL °øÇÐ ¹× °³¼±
9.3.1 ÇÁ·Î¼¼½º(°úÁ¤)
9.3.2 ȯ°æ °øÇÐ
9.3.3 »óÅ °øÇÐ ¶Ç´Â »óÅ ǥÇö ÇнÀ
9.3.4 Á¤Ã¥ °øÇÐ
9.3.5 Çൿ °ø°£¿¡ Á¤Ã¥ ¸ÅÇÎ
9.3.6 ŽÇè
9.3.7 º¸»ó ¿£Áö´Ï¾î¸µ(Reward Engineering)
9.4 ¿ä¾à
9.5 Ãß°¡ ÀÚ·á
Reference

CHAPTER 10 ¿î¿µ °­È­ ÇнÀ(Operational Reinforcement Learning)
10.1 ±¸Çö
10.1.1 ÇÁ·¹ÀÓ¿öÅ©
10.1.2 ½ºÄÉÀϸµ RL
10.1.3 Æò°¡
10.2 ¹èÄ¡
10.2.1 ¸ñÇ¥
10.2.2 ¾ÆÅ°ÅØÃÄ
10.2.3 º¸Á¶ µµ±¸
10.2.4 ¾ÈÀü¼º, º¸¾È¼º, À±¸®
10.3 ¿ä¾à
10.4 Ãß°¡ ÀÚ·á
Reference

CHAPTER 11 °á·Ð°ú ¹Ì·¡
11.1 ÆÁ°ú ¼ÓÀÓ¼ö
11.1.1 ¹®Á¦ ÇÁ·¹À̹Ö
11.1.2 ´ç½ÅÀÇ µ¥ÀÌÅÍ
11.1.3 ÈÆ·Ã
11.1.4 Æò°¡
11.1.5 ¹èÆ÷
11.2 µð¹ö±ë
11.2.1 ${ALGORITHM_NAME} Can¡¯t Solve ${ENVIRONMENT}!
11.2.2 µð¹ö±ëÀ» À§ÇÑ ¸ð´ÏÅ͸µ
11.3 °­È­ ÇнÀÀÇ ¹Ì·¡
11.3.1 °­È­ ÇнÀÀÇ ½ÃÀ强
11.3.2 ¹Ì·¡ÀÇ °­È­ÇнÀ°ú ¿¬±¸ ¹æÇâ
11.4 ³¡ ¸ÎÀ½
11.4.1 ´ÙÀ½ ´Ü°è
11.4.2 ÀÌÁ¦´Â ´ç½ÅÀÇ Â÷·Ê
11.5 Ãß°¡ ÀÚ·á
Reference

ÀúÀÚ¼Ò°³

ÀÓÇö±³ [Àú] ½ÅÀ۾˸² SMS½Åû
»ý³â¿ùÀÏ -

ÇØ´çÀÛ°¡¿¡ ´ëÇÑ ¼Ò°³°¡ ¾ø½À´Ï´Ù.

±è±ÍÈÆ [¿ª] ½ÅÀ۾˸² SMS½Åû
»ý³â¿ùÀÏ -

Çѱ¹±³¿ø´ëÇб³ A|À¶ÇÕ±³À°Àü°ø Àü°øÁÖÀÓ ±³¼ö, ÄÄÇ»Åͱ³À°°ú ±³¼ö, Çѱ¹AIÀ¶ÇÕ±³À°¿¬±¸¼Ò ¼ÒÀå, ¿µÀç±³À°¿ø ¿µÀçºÎÀå, AIÇÁ·»Áî ºÎ´ëÇ¥, Çѱ¹ÄÄÇ»Åͱ³À°ÇÐȸ 0|»ç, Çѱ¹ÄÄÇ»ÅÍ Á¤º¸ÇÐȸ ÀÌ»ç. ¡º2015°³Á¤ ±³À°°úÁ¤ AI ÇÁ·Î±×·¡¹Ö ±âÃÊ ±³°ú¼­¡», ¡ºÀΰøÁö´É1/2¡», ¡ºAIÇÁ·Î±×·¡¹Ö1/2¡», ¡ºAIÀ¶ÇÕ±³À°Àü°øÇÁ·ÎÁ§Æ®¡» µîÀ» ÁýÇÊÇÏ¿´´Ù.

ÀÓÇö±³ [¿ª] ½ÅÀ۾˸² SMS½Åû
»ý³â¿ùÀÏ -

ÇØ´çÀÛ°¡¿¡ ´ëÇÑ ¼Ò°³°¡ ¾ø½À´Ï´Ù.

ÄÄÇ»ÅÍ/ÀÎÅÍ³Ý ºÐ¾ß¿¡¼­ ¸¹Àº ȸ¿øÀÌ ±¸¸ÅÇÑ Ã¥

    ¸®ºä

    0.0 (ÃÑ 0°Ç)

    100ÀÚÆò

    ÀÛ¼º½Ã À¯ÀÇ»çÇ×

    ÆòÁ¡
    0/100ÀÚ
    µî·ÏÇϱâ

    100ÀÚÆò

    0.0
    (ÃÑ 0°Ç)

    ÆǸÅÀÚÁ¤º¸

    • ÀÎÅÍÆÄÅ©µµ¼­¿¡ µî·ÏµÈ ¿ÀǸ¶ÄÏ »óÇ°Àº ±× ³»¿ë°ú Ã¥ÀÓÀÌ ¸ðµÎ ÆǸÅÀÚ¿¡°Ô ÀÖÀ¸¸ç, ÀÎÅÍÆÄÅ©µµ¼­´Â ÇØ´ç »óÇ°°ú ³»¿ë¿¡ ´ëÇØ Ã¥ÀÓÁöÁö ¾Ê½À´Ï´Ù.

    »óÈ£

    (ÁÖ)±³º¸¹®°í

    ´ëÇ¥ÀÚ¸í

    ¾Èº´Çö

    »ç¾÷ÀÚµî·Ï¹øÈ£

    102-81-11670

    ¿¬¶ôó

    1544-1900

    ÀüÀÚ¿ìÆíÁÖ¼Ò

    callcenter@kyobobook.co.kr

    Åë½ÅÆǸž÷½Å°í¹øÈ£

    01-0653

    ¿µ¾÷¼ÒÀçÁö

    ¼­¿ïƯº°½Ã Á¾·Î±¸ Á¾·Î 1(Á¾·Î1°¡,±³º¸ºôµù)

    ±³È¯/ȯºÒ

    ¹ÝÇ°/±³È¯ ¹æ¹ý

    ¡®¸¶ÀÌÆäÀÌÁö > Ãë¼Ò/¹ÝÇ°/±³È¯/ȯºÒ¡¯ ¿¡¼­ ½Åû ¶Ç´Â 1:1 ¹®ÀÇ °Ô½ÃÆÇ ¹× °í°´¼¾ÅÍ(1577-2555)¿¡¼­ ½Åû °¡´É

    ¹ÝÇ°/±³È¯°¡´É ±â°£

    º¯½É ¹ÝÇ°ÀÇ °æ¿ì Ãâ°í¿Ï·á ÈÄ 6ÀÏ(¿µ¾÷ÀÏ ±âÁØ) À̳»±îÁö¸¸ °¡´É
    ´Ü, »óÇ°ÀÇ °áÇÔ ¹× °è¾à³»¿ë°ú ´Ù¸¦ °æ¿ì ¹®Á¦Á¡ ¹ß°ß ÈÄ 30ÀÏ À̳»

    ¹ÝÇ°/±³È¯ ºñ¿ë

    º¯½É ȤÀº ±¸¸ÅÂø¿À·Î ÀÎÇÑ ¹ÝÇ°/±³È¯Àº ¹Ý¼Û·á °í°´ ºÎ´ã
    »óÇ°À̳ª ¼­ºñ½º ÀÚüÀÇ ÇÏÀÚ·Î ÀÎÇÑ ±³È¯/¹ÝÇ°Àº ¹Ý¼Û·á ÆǸÅÀÚ ºÎ´ã

    ¹ÝÇ°/±³È¯ ºÒ°¡ »çÀ¯

    ·¼ÒºñÀÚÀÇ Ã¥ÀÓ ÀÖ´Â »çÀ¯·Î »óÇ° µîÀÌ ¼Õ½Ç ¶Ç´Â ÈÑ¼ÕµÈ °æ¿ì
    (´ÜÁö È®ÀÎÀ» À§ÇÑ Æ÷Àå ÈѼÕÀº Á¦¿Ü)

    ·¼ÒºñÀÚÀÇ »ç¿ë, Æ÷Àå °³ºÀ¿¡ ÀÇÇØ »óÇ° µîÀÇ °¡Ä¡°¡ ÇöÀúÈ÷ °¨¼ÒÇÑ °æ¿ì
    ¿¹) È­ÀåÇ°, ½ÄÇ°, °¡ÀüÁ¦Ç°(¾Ç¼¼¼­¸® Æ÷ÇÔ) µî

    ·º¹Á¦°¡ °¡´ÉÇÑ »óÇ° µîÀÇ Æ÷ÀåÀ» ÈѼÕÇÑ °æ¿ì
    ¿¹) À½¹Ý/DVD/ºñµð¿À, ¼ÒÇÁÆ®¿þ¾î, ¸¸È­Ã¥, ÀâÁö, ¿µ»ó È­º¸Áý

    ·½Ã°£ÀÇ °æ°ú¿¡ ÀÇÇØ ÀçÆǸŰ¡ °ï¶õÇÑ Á¤µµ·Î °¡Ä¡°¡ ÇöÀúÈ÷ °¨¼ÒÇÑ °æ¿ì

    ·ÀüÀÚ»ó°Å·¡ µî¿¡¼­ÀÇ ¼ÒºñÀÚº¸È£¿¡ °üÇÑ ¹ý·üÀÌ Á¤ÇÏ´Â ¼ÒºñÀÚ Ã»¾àöȸ Á¦ÇÑ ³»¿ë¿¡ ÇØ´çµÇ´Â °æ¿ì

    »óÇ° Ç°Àý

    °ø±Þ»ç(ÃâÆÇ»ç) Àç°í »çÁ¤¿¡ ÀÇÇØ Ç°Àý/Áö¿¬µÉ ¼ö ÀÖÀ½

    ¼ÒºñÀÚ ÇÇÇغ¸»ó
    ȯºÒÁö¿¬¿¡ µû¸¥ ¹è»ó

    ·»óÇ°ÀÇ ºÒ·®¿¡ ÀÇÇÑ ±³È¯, A/S, ȯºÒ, Ç°Áúº¸Áõ ¹× ÇÇÇغ¸»ó µî¿¡ °üÇÑ »çÇ×Àº ¼ÒºñÀÚºÐÀïÇØ°á ±âÁØ (°øÁ¤°Å·¡À§¿øȸ °í½Ã)¿¡ ÁØÇÏ¿© 󸮵Ê

    ·´ë±Ý ȯºÒ ¹× ȯºÒÁö¿¬¿¡ µû¸¥ ¹è»ó±Ý Áö±Þ Á¶°Ç, ÀýÂ÷ µîÀº ÀüÀÚ»ó°Å·¡ µî¿¡¼­ÀÇ ¼ÒºñÀÚ º¸È£¿¡ °üÇÑ ¹ý·ü¿¡ µû¶ó ó¸®ÇÔ

    (ÁÖ)KGÀ̴Ͻýº ±¸¸Å¾ÈÀü¼­ºñ½º¼­ºñ½º °¡ÀÔ»ç½Ç È®ÀÎ

    (ÁÖ)ÀÎÅÍÆÄÅ©Ä¿¸Ó½º´Â ȸ¿ø´ÔµéÀÇ ¾ÈÀü°Å·¡¸¦ À§ÇØ ±¸¸Å±Ý¾×, °áÁ¦¼ö´Ü¿¡ »ó°ü¾øÀÌ (ÁÖ)ÀÎÅÍÆÄÅ©Ä¿¸Ó½º¸¦ ÅëÇÑ ¸ðµç °Å·¡¿¡ ´ëÇÏ¿©
    (ÁÖ)KGÀ̴Ͻýº°¡ Á¦°øÇÏ´Â ±¸¸Å¾ÈÀü¼­ºñ½º¸¦ Àû¿ëÇÏ°í ÀÖ½À´Ï´Ù.

    ¹è¼Û¾È³»

    • ±³º¸¹®°í »óÇ°Àº Åùè·Î ¹è¼ÛµÇ¸ç, Ãâ°í¿Ï·á 1~2Àϳ» »óÇ°À» ¹Þ¾Æ º¸½Ç ¼ö ÀÖ½À´Ï´Ù.

    • Ãâ°í°¡´É ½Ã°£ÀÌ ¼­·Î ´Ù¸¥ »óÇ°À» ÇÔ²² ÁÖ¹®ÇÒ °æ¿ì Ãâ°í°¡´É ½Ã°£ÀÌ °¡Àå ±ä »óÇ°À» ±âÁØÀ¸·Î ¹è¼ÛµË´Ï´Ù.

    • ±ººÎ´ë, ±³µµ¼Ò µî ƯÁ¤±â°üÀº ¿ìü±¹ Åù踸 ¹è¼Û°¡´ÉÇÕ´Ï´Ù.

    • ¹è¼Ûºñ´Â ¾÷ü ¹è¼Ûºñ Á¤Ã¥¿¡ µû¸¨´Ï´Ù.

    • - µµ¼­ ±¸¸Å ½Ã 15,000¿ø ÀÌ»ó ¹«·á¹è¼Û, 15,000¿ø ¹Ì¸¸ 2,500¿ø - »óÇ°º° ¹è¼Ûºñ°¡ ÀÖ´Â °æ¿ì, »óÇ°º° ¹è¼Ûºñ Á¤Ã¥ Àû¿ë