°£Æí°áÁ¦, ½Å¿ëÄ«µå û±¸ÇÒÀÎ
ÀÎÅÍÆÄÅ© ·Ôµ¥Ä«µå 5% (25,650¿ø)
(ÃÖ´ëÇÒÀÎ 10¸¸¿ø / Àü¿ù½ÇÀû 40¸¸¿ø)
ºÏÇǴϾð ·Ôµ¥Ä«µå 30% (18,900¿ø)
(ÃÖ´ëÇÒÀÎ 3¸¸¿ø / 3¸¸¿ø ÀÌ»ó °áÁ¦)
NH¼îÇÎ&ÀÎÅÍÆÄÅ©Ä«µå 20% (21,600¿ø)
(ÃÖ´ëÇÒÀÎ 4¸¸¿ø / 2¸¸¿ø ÀÌ»ó °áÁ¦)
Close

Stable Baselines¸¦ ÀÌ¿ëÇÑ °­È­ÇнÀ

¼Òµæ°øÁ¦

2013³â 9¿ù 9ÀÏ ÀÌÈÄ ´©Àû¼öÄ¡ÀÔ´Ï´Ù.

°øÀ¯Çϱâ
Á¤°¡

27,000¿ø

  • 27,000¿ø

    810P (3%Àû¸³)

ÇÒÀÎÇýÅÃ
Àû¸³ÇýÅÃ
  • S-Point Àû¸³Àº ¸¶ÀÌÆäÀÌÁö¿¡¼­ Á÷Á¢ ±¸¸ÅÈ®Á¤ÇϽŠ°æ¿ì¸¸ Àû¸³ µË´Ï´Ù.
Ãß°¡ÇýÅÃ
¹è¼ÛÁ¤º¸
  • 4/24(¼ö) À̳» ¹ß¼Û ¿¹Á¤  (¼­¿ï½Ã °­³²±¸ »ï¼º·Î 512)
  • ¹«·á¹è¼Û
ÁÖ¹®¼ö·®
°¨¼Ò Áõ°¡
  • À̺¥Æ®/±âȹÀü

  • ¿¬°üµµ¼­

  • »óÇ°±Ç

AD

Ã¥¼Ò°³

ÀÌ Ã¥Àº °­È­ÇнÀÀÇ ÀÛµ¿¿ø¸®¸¦ toy exampleÀ» ÅëÇØ ½±°Ô ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï ÁýÇʵǾúÀ¸¸ç, MDP¿Í Bellman ¹æÁ¤½ÄÀ» ÀÏÀÏÀÌ ±¸Ã¼Àû ¼öÄ¡·Î °è»êÇÑ ÈÄ Åë°èÀû¡¤¼öÇÐÀû ¼ö½ÄÀ¸·Î ÀçÇ¥ÇöÇÏ¿© ¼ö½ÄÀÇ Àǹ̸¦ ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï ±¸¼ºÇÏ¿´´Ù. Stable Baselines´Â ÇöÀç±îÁö ÃÑ 15°³ÀÇ °­È­ÇнÀ¹ýÀ» ½ÇÇàÇÒ ¼ö ÀÖ´Ù. ÀÌ Ã¥¿¡´Â 10°³ÀÇ °­È­ÇнÀÀ» Ãß°¡ÇÏ¿© 25°³ÀÇ °­È­ÇнÀ¹ýÀ» ¼ö·ÏÇÏ¿´´Ù. °­È­ÇнÀ ¹ßÇ¥ ³í¹®À» ±â¹ÝÀ¸·Î °­È­ÇнÀ¹ýÀÇ Àå´ÜÁ¡°ú ¿ø¸®¸¦ Ãæ½ÇÇÏ°Ô ¹Ý¿µÇÏ¿´Áö¸¸ »ó´çÇÑ ¼öÁØÀÇ ¼öÇÐÀû ¹è°æÀ» ¿ä±¸ÇÏ´Â ÀÌ·ÐÀû Áõ¸íÀº »ý·«ÇÏ¿´´Ù. ÄÚµù¿¡ ´É¼÷ÇÑ µ¶ÀÚ°¡ Á÷Á¢ ÇÁ·Î±×·¡¹ÖÀÌ °¡´ÉÇÒ ¸¸Å­ »ó¼¼ÇÑ ¾Ë°í¸®ÁòÀ» Á¦°øÇÏ¿© °­È­ÇнÀ¹ýÀÇ ¿ø¸®¿Í ±¸Á¶¸¦ ÃæºÐÇÏ°Ô ÆľÇÇÒ ¼ö ÀÖµµ·Ï ÇÏ¿´´Ù. Stable BaselinesÀÇ »ç¿ë¹ýÀ» ÃÖ´ëÇÑ ÀÚ¼¼ÇÏ°Ô ¼ö·ÏÇÏ¿´°í Ãâ·Â °á°ú¿¡ ´ëÇÑ Çؼ³µµ Ãæ½ÇÇÏ°Ô ÀÛ¼ºÇÏ¿´´Ù. Stable Baselines¿¡¼­ Á¦°øÇÏÁö ¾ÊÀº °­È­ÇнÀ Áß ÀϺδ Çؼ³°ú ÇÔ²² ÇÁ·Î±×·¥À» Á¦°øÇÏ¿´°í ÀϺδ ÇÁ·Î±×·¥À» download ÇÒ ¼ö ÀÖ´Â ÁÖ¼Ò¸¦ Á¦°øÇÏ¿´´Ù.
°­È­ÇнÀÀº ÀÌ·ÐÀûÀ¸·Î °èÃþÀû ±¸Á¶¸¦ °¡Áö°í ÀÖ´Ù. ±Ùº»ÀûÀ¸·Î ¸ðµç °­È­ÇнÀ ¾Ë°í¸®ÁòÀº MDP¿Í Bellman ¹æÁ¤½ÄÀ» ±âÃÊ·Î ÀÛ¼ºµÇ¾î ÀÖÀ¸¹Ç·Î ÃÖ±Ù¿¡ °³¹ßµÈ °­È­ÇнÀÀº °ú°ÅÀÇ °­È­ÇнÀ¿¡¼­ °³¼±µÈ ÇüŶó°í º¸¸é µÈ´Ù. Âü°íÇÒ ¼ö ÀÖµµ·Ï ¸Ó¸®¸» ¸¶Áö¸· ºÎºÐ¿¡ °­È­ÇнÀ °èº¸µµ¸¦ ½Ç¾î µÎ¾ú´Ù. ÀÌ Ã¥À» °øºÎÇϸé ÀÚ¿¬½º·´°Ô ÀÌ °èº¸µµ¸¦ ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï Ã¥ÀÇ Â÷·Êµµ °èº¸µµÀÇ ¼ø¼­·Î ±¸¼ºÇÏ¿´À¸¸ç ºÎ·Ï¿¡ µû·Î ½ÇÇà ¾Ë°í¸®ÁòÀ» Á¤¸®ÇØ ³õ¾Ò´Ù. °­È­ÇнÀÀÇ °èº¸µµ¿Í Á¤¸®µÈ ½ÇÇà ¾Ë°í¸®ÁòÀº °­È­ÇнÀÀ» ºñ±³ÇÏ°í Ư¼ºÀ» ÆľÇÇÏ´Â µ¥ ¸Å¿ì °£´ÜÇÏ°í À¯¿ëÇÑ ÀÏÁ¾ÀÇ summary·Î È°¿ëÇÒ ¼ö ÀÖ´Ù. °èº¸µµ¿¡¼­ (off)´Â ÇØ´ç °­È­ÇнÀÀÌ off-policy¶ó´Â ÀǹÌÀÌ¸ç º°µµÀÇ Ç¥½ÄÀÌ ¾ø´Â °­È­ÇнÀÀº on-policy ÇнÀ¹ýÀÓÀ» ÀǹÌÇÑ´Ù. º»¹®À» °øºÎÇϸé onpolicy¿Í off-policy¸¦ ±¸ºÐÇÒ ¼ö ÀÖ°ÚÁö¸¸ °£´ÜÇÏ°Ô ±¸º°ÇÏ´Â ¹æ¹ýÀº º°µµÀÇ Ç¥º» ÀúÀå°ø°£À¸·ÎºÎÅÍ Ç¥º»À» »Ì¾Æ¼­ policy¸¦ °³¼±Çϸé À̸¦ off-policy¶ó°í »ý°¢ÇÏ°í, ±×·¸Áö ¾ÊÀ¸¸é on-policy¶ó°í »ý°¢ÇÏ¸é µÈ´Ù.
ÁÁÀº Ã¥À» À§ÇØ ÃÖ¼±À» ´ÙÇßÁö¸¸ ºÎÁ·ÇÑ ºÎºÐÀÌ ÀÖÀ» ¼ö ÀÖ´Ù. ÀÌ Á¡Àº ¾çÇظ¦ ¹Ù¶ó¸ç, Ã¥¿¡ ³ª¿À´Â ½Ç½À ÇÁ·Î±×·¥°ú Ãâ°£ ÈÄ ³ª¿Ã ¼ö ÀÖ´Â ¼öÁ¤»çÇ× µîÀº ÀÚÀ¯¾ÆÄ«µ¥¹Ì ȨÆäÀÌÁö(www.freeaca.com) ÀÚ·á½ÇÀ» ÅëÇØ Á¦°øÇÒ ¿¹Á¤ÀÌ´Ï ÂüÁ¶Çϱ⸦ ¹Ù¶õ´Ù.

¸ñÂ÷

1Àå °­È­ÇнÀÀÇ ÀÌÇØ
1.1 3¡¿3 ȯ°æ¿¡¼­ÀÇ °­È­ÇнÀ
1.2 MDP(Markov Decision Process)
1.3 °¡Ä¡ÇÔ¼ö¿Í Q ÇÔ¼ö

2Àå Bellman ¹æÁ¤½Ä°ú ´ÙÀ̳ª¹Í ÇÁ·Î±×·¡¹Ö
2.1 Bellman ¹æÁ¤½Ä
2.2 DP(Dynamic Programming)
2.3 DP ¿¹Á¦

3Àå OpenAI Gym

4Àå ¸óÅ×Ä«¸¦·Î ÃßÁ¤¹æ¹ý
4.1 °¡Ä¡ÇÔ¼ö ¹× Q ÇÔ¼öÀÇ ¸óÅ×Ä«¸¦·Î ÃßÁ¤
4.2 ÃÖÀû policy ¸óÅ×Ä«¸¦·Î ÃßÁ¤
4.3 Blackjack °ÔÀÓÀÇ ¸óÅ×Ä«¸¦·Î ÇнÀ
4.4 off-policy ¸óÅ×Ä«¸¦·Î

5Àå TD¿Í actionÀÇ Å½»ö
5.1 SARSA¿Í Q-ÇнÀ
5.2 SARSA¿Í Q-ÇнÀÀÇ ÀÀ¿ë
5.3 ActionÀÇ Å½»ö°ú ¼±ÅÃ

6Àå Deep Q networks
6.1 DQN ¸ðÇü
6.2 DQNÀÇ ÀÀ¿ë
6.3 Double DQN
6.4 °¡ÁßÄ¡¸¦ °¡Áø replay buffer
6.5 Dueling DQN

7Àå Á¤Ã¥±â¹Ý °­È­ÇнÀ
7.1 Policy GradientÀÇ µµÃâ°ú ÀǹÌ
7.2 Á¤Ã¥±â¹Ý °­È­ÇнÀ ¾Ë°í¸®Áò
7.3 REINFORCEÀÇ ÀÀ¿ë

8Àå Actor-Critic °­È­ÇнÀ
8.1 A2C
8.2 ºñµ¿½Ã¼º A2C(A3C)
8.3 ACER

9Àå Stable Baselines
9.1 DQNÀÇ Àû¿ë°ú ÀÀ¿ë
9.2 A2C, A3C, ACERÀÇ Àû¿ë°ú ÀÀ¿ë
9.3 Stable Baselines¿¡¼­ Áö¿øÇÏ´Â action space¿Í policy ¾ÆÅ°ÅØó
9.4 ¸ÂÃãÇü Policy ¸¸µé±â
9.5 Multiprocessing°ú ¸ÂÃãÇü ȯ°æ
9.6 ½Ã½ºÅÛ Áֽİŷ¡¸¦ À§ÇÑ ÁֽĽÃÀå ȯ°æ±¸Ãà

10Àå TRPO, PPO, ACKTR
10.1 TRPO
10.2 PPO
10.3 ACKTR
10.4 Stable BaselinesÀÇ Àû¿ë

11Àå DDPG, TD3, SAC
11.1 DDPG
11.2 TD3
11.3 SAC
11.4 DDPG, TD3, SACÀÇ ÀÀ¿ë
11.5 HER

12Àå ¸ð¹æÇнÀ°ú ¿ª°­È­ÇнÀ
12.1 DAgger
12.2 DQfD
12.3 IRL
12.4 GAIL
12.5 »çÀüÇнÀ°ú GAILÀÇ Àû¿ë

13Àå È®·üºÐÆ÷ °­È­ÇнÀ
13.1 ¹üÁÖÇü DQN
13.2 QR-DQN
13.3 D4PG

ºÎ·Ï
1. ¸óÅ×Ä«¸¦·Î Á¤Ã¥ ¹Ýº¹¹ý
2. off-policy ¸óÅ×Ä«¸¦·Î ¾Ë°í¸®Áò
3. SARSA ¾Ë°í¸®Áò
4. Q-ÇнÀ ¾Ë°í¸®Áò
5. DQN ¾Ë°í¸®Áò
6. REINFORCE ¾Ë°í¸®Áò
7. policy gradient with baseline ¾Ë°í¸®Áò
8. A2C ¾Ë°í¸®Áò
9. TRPO ¾Ë°í¸®Áò
10. PPO-clipped ¾Ë°í¸®Áò
11. PPO-penalty ¾Ë°í¸®Áò
12. DDPG ¾Ë°í¸®Áò
13. TD3 ¾Ë°í¸®Áò
14. SAC ¾Ë°í¸®Áò
15. DAgger ¾Ë°í¸®Áò
16. DQfD ¾Ë°í¸®Áò
17. IRL ¾Ë°í¸®Áò
18. ¹üÁÖÇü DQN ¾Ë°í¸®Áò
19. D4PG ¾Ë°í¸®Áò

Âü°í¹®Çå

ã¾Æº¸±â

º»¹®Áß¿¡¼­

[¸Ó¸®¸»]
ÀúÀÚ´Â ÄÚµù¿¡ ´É¼÷ÇÏÁö ¸øÇÏÁö¸¸ ÆÄÀ̽㠶óÀ̺귯¸® sklearn ´öºÐ¿¡ Å« ¾î·Á¿ò ¾øÀÌ ¸Ó½Å·¯´×À» ÀÌÇØÇÏ°í ½Ç½ÀÇÒ ¼ö ÀÖ¾úÀ¸¸ç Keras³ª Pytorch¶ó´Â high level ÇÁ·Î±×·¡¹Ö ¾ð¾î ´öºÐ¿¡ µö·¯´×À» ÀÌÇØÇÏ°í È°¿ëÇÒ ¼ö ÀÖ¾ú´Ù. °­È­ÇнÀ(reinforcement learning)Àº ÀΰøÁö´É¿¡¼­ °¡Àå ÄÚµùÀÌ º¹ÀâÇÏ°í ³­ÇØÇÏ¿© ¹è¿ì±â ¾î·Á¿ì³ª ÀÀ¿ëºÐ¾ß°¡ °ÔÀÓ, ±ÝÀ¶, ÀÚÀ²ÀÚµ¿Â÷, ÀÚÀ²ÁÖÂ÷, ·Îº¿ µî ¹«±Ã¹«ÁøÇϸç, ¹ßÀü °¡´É¼ºÀÌ ¸Å¿ì ³ôÀº ºÐ¾ßÀÌ´Ù. µö·¯´×°ú Åë°èÀû ÃßÁ¤ ¹æ¹ýÀ» ±Ù°£À¸·Î ÇÏ´Â °­È­ÇнÀÀº 40³â ÀÌ»ó Åë°èÇи¸ ¿¬±¸ÇØ¿Â ÀúÀÚ¿¡°Ô Á¤ÀûÀÎ Åë°èÇÐÀ» µ¿ÀûÀÎ Åë°èÇÐÀ¸·Î ÀÀ¿ëÇÒ ¼ö ÀÖ°Ú´Ù´Â ¼³·½°ú È£±â½ÉÀ¸·Î ´Ù°¡¿Ô´Ù.
Áö³­ 3³â µ¿¾È °­È­ÇнÀ¿¡ °ü·ÃµÈ Ã¥µéÀ» ¸ðµÎ ±¸¸ÅÇÏ¿© ¸¶Ä¡ ¼öÇè»ýó·³ °øºÎ ÇÏ¿´Áö¸¸ ¸Ó½Å·¯´×À̳ª µö·¯´×ó·³ ÀÌÇØÇÏ´Â °ÍÀÌ ½±Áö´Â ¾Ê¾Ò´Ù. ÀÌ´Â ÀÌ·Ð À§ÁÖÀÇ Ã¥À̵ç ÀÀ¿ë À§ÁÖÀÇ Ã¥ÀÌµç °ü°è¾øÀÌ °­È­ÇнÀÀÇ ÇÙ½É ÀÌ·ÐÀÎ Markov Decision Process(MDP)¿Í Bellman ¹æÁ¤½ÄÀ» ¸í·áÇÏ°Ô ¼³¸íÇÑ Ã¥ÀÌ ¾ø¾ú°í Ã¥¸¶´Ù ÀÌ¿¡ ´ëÇÑ ¼³¸íÀÌ ´Ù¸¥ °æ¿ì°¡ ¸¹¾Æ È¥¶õ½º·¯¿ü´ø °ÍÀÌ ÇÑ ¿äÀÎÀ̾ú´Ù. ±×·¯³ª °¡Àå Å« ÀÌÀ¯´Â °­È­ÇнÀ Ã¥µé ´ëºÎºÐÀÌ ÄÚµå ÀÛ¼º¿¡ ÁýÁßÇÏ¿© ÀúÀÚ¿¡°Ô´Â ³ÑÀ» ¼ö ¾ø´Â ÄÚµù±â¼ú ¹è¿ì±â·Î ÀνĵǾú±â ¶§¹®ÀÌ´Ù. ÀúÀÚ´Â programmerº¸´Ù´Â modeller¸¦ ÁöÇâÇϱ⠶§¹®¿¡ ¸ÕÀú °­È­ÇнÀÀÇ ÀÌ·ÐÀû ±Ù°£ÀÎ MDP¿Í Bellman ¹æÁ¤½ÄÀ» ¸íÈ®ÇÏ°Ô ÀÌÇØÇÏ°í °­È­ÇнÀÀÇ ¼ö¸¹Àº ¾Ë°í¸®ÁòÀÇ ¿ø¸®¿Í ±¸Á¶, ¸ñÀû µîÀ» È®½ÇÈ÷ Á¤¸³ÇÑ ÈÄ, ½Ç½ÀÀº ÀÎÅÍ³Ý °Ë»öÀ» ÅëÇØ ÀÌ¹Ì ±¸ÇöµÇ¾îÀÖ´Â ÇÁ·Î±×·¥À¸·Î ½ÇÇàÇصµ µÈ´Ù´Â »ý°¢À» °¡Áö°í ÀÖ´Ù.
ÀÌ·¯ÇÑ »ý°¢À» Åä´ë·Î °­ÀǾÈÀ» ÁغñÇÏ´Â Áß 2020³â 12¿ù ¸»¿¡ Stable Baselines¶ó´Â °­È­ÇнÀ ¶óÀ̺귯¸®°¡ ÀÖ´Ù´Â »ç½ÇÀ» ¾Ë°Ô µÇ¾ú´Ù. Stable Baselines´Â ÃÖ±Ù±îÁö ¹ßÇ¥µÈ ´ëÇ¥ÀûÀÎ °­È­ÇнÀ ¾Ë°í¸®ÁòµéÀ» ´Ü ¸î ÁÙÀÇ ¸í·É¾î·Î ½ÇÇàÇÒ ¼ö ÀÖÀ» »Ó¸¸ ¾Æ´Ï¶ó ´Ù¾çÇÑ ¿É¼ÇÀ» ÀÌ¿ëÇÏ¿© ¸ÂÃãÇü °­È­ÇнÀµµ ¾î·ÆÁö ¾Ê°Ô ¸¸µé¼ö ÀÖ´Â ¶óÀ̺귯¸®ÀÌ´Ù. ºñ·Ï Çؼ³Áý(documentation)ÀÌ ÃæºÐÇÏÁö ¾Ê¾Æ »ç¿ë¹ý°ú Ãâ·Â °á°ú Çؼ®¿¡ ¾î·Á¿òÀÌ ÀÖ¾úÁö¸¸ ¼Ò½ºÄÚµå¿Í try and error¸¦ ÅëÇØ modeller·Î¼­ÀÇ °­È­ÇнÀ Á¢±Ù¹æ½ÄÀ» ÃæÁ·½ÃÅ°±â¿¡ ÃæºÐÇÏ¿´´Ù.
ÀúÀÚó·³ ÄÚµù¿¡ ´É¼÷ÇÏÁö ¸øÇÏÁö¸¸, °­È­ÇнÀ ÀÀ¿ë¿¡ °ü½É ÀÖ´Â »ç¶÷¿¡°Ô µµ¿òÀÌ µÉ °ÍÀ̶ó´Â »ý°¢°ú ÇÔ²² ¸Ó½Å·¯´×°ú µö·¯´× Ã¥À» Ãâ°£ÇÑ ÀúÀÚÀÇ ÀÔÀå¿¡¼­ °­È­ÇнÀÀ¸·Î ÀΰøÁö´É ½Ã¸®Á ¿Ï¼ºÇÏ°í ½ÍÀº °³ÀÎÀûÀÎ ¿å½Éµµ ÀÌ Ã¥À» ¾²°Ô µÈ µ¿±â°¡ µÇ¾ú´Ù.
ÀÌ Ã¥Àº °­È­ÇнÀÀÇ ÀÛµ¿¿ø¸®¸¦ toy exampleÀ» ÅëÇØ ½±°Ô ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï ÁýÇʵǾúÀ¸¸ç, MDP¿Í Bellman ¹æÁ¤½ÄÀ» ÀÏÀÏÀÌ ±¸Ã¼Àû ¼öÄ¡·Î °è»êÇÑ ÈÄ Åë°èÀû¡¤¼öÇÐÀû ¼ö½ÄÀ¸·Î ÀçÇ¥ÇöÇÏ¿© ¼ö½ÄÀÇ Àǹ̸¦ ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï ±¸¼ºÇÏ¿´´Ù. Stable Baselines´Â ÇöÀç±îÁö ÃÑ 15°³ÀÇ °­È­ÇнÀ¹ýÀ» ½ÇÇàÇÒ ¼ö ÀÖ´Ù. ÀÌ Ã¥¿¡´Â 10°³ÀÇ °­È­ÇнÀÀ» Ãß°¡ÇÏ¿© 25°³ÀÇ °­È­ÇнÀ¹ýÀ» ¼ö·ÏÇÏ¿´´Ù. °­È­ÇнÀ ¹ßÇ¥ ³í¹®À» ±â¹ÝÀ¸·Î °­È­ÇнÀ¹ýÀÇ Àå´ÜÁ¡°ú ¿ø¸®¸¦ Ãæ½ÇÇÏ°Ô ¹Ý¿µÇÏ¿´Áö¸¸ »ó´çÇÑ ¼öÁØÀÇ ¼öÇÐÀû ¹è°æÀ» ¿ä±¸ÇÏ´Â ÀÌ·ÐÀû Áõ¸íÀº »ý·«ÇÏ¿´´Ù. ÄÚµù¿¡ ´É¼÷ÇÑ µ¶ÀÚ°¡ Á÷Á¢ ÇÁ·Î±×·¡¹ÖÀÌ °¡´ÉÇÒ ¸¸Å­ »ó¼¼ÇÑ ¾Ë°í¸®ÁòÀ» Á¦°øÇÏ¿© °­È­ÇнÀ¹ýÀÇ ¿ø¸®¿Í ±¸Á¶¸¦ ÃæºÐÇÏ°Ô ÆľÇÇÒ ¼ö ÀÖµµ·Ï ÇÏ¿´´Ù. Stable BaselinesÀÇ »ç¿ë¹ýÀ» ÃÖ´ëÇÑ ÀÚ¼¼ÇÏ°Ô ¼ö·ÏÇÏ¿´°í Ãâ·Â °á°ú¿¡ ´ëÇÑ Çؼ³µµ Ãæ½ÇÇÏ°Ô ÀÛ¼ºÇÏ¿´´Ù. Stable Baselines¿¡¼­ Á¦°øÇÏÁö ¾ÊÀº °­È­ÇнÀ Áß ÀϺδ Çؼ³°ú ÇÔ²² ÇÁ·Î±×·¥À» Á¦°øÇÏ¿´°í ÀϺδ ÇÁ·Î±×·¥À» download ÇÒ ¼ö ÀÖ´Â ÁÖ¼Ò¸¦ Á¦°øÇÏ¿´´Ù.
°­È­ÇнÀÀº ÀÌ·ÐÀûÀ¸·Î °èÃþÀû ±¸Á¶¸¦ °¡Áö°í ÀÖ´Ù. ±Ùº»ÀûÀ¸·Î ¸ðµç °­È­ÇнÀ ¾Ë°í¸®ÁòÀº MDP¿Í Bellman ¹æÁ¤½ÄÀ» ±âÃÊ·Î ÀÛ¼ºµÇ¾î ÀÖÀ¸¹Ç·Î ÃÖ±Ù¿¡ °³¹ßµÈ °­È­ÇнÀÀº °ú°ÅÀÇ °­È­ÇнÀ¿¡¼­ °³¼±µÈ ÇüŶó°í º¸¸é µÈ´Ù. Âü°íÇÒ ¼ö ÀÖµµ·Ï ¸Ó¸®¸» ¸¶Áö¸· ºÎºÐ¿¡ °­È­ÇнÀ °èº¸µµ¸¦ ½Ç¾î µÎ¾ú´Ù. ÀÌ Ã¥À» °øºÎÇϸé ÀÚ¿¬½º·´°Ô ÀÌ °èº¸µµ¸¦ ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï Ã¥ÀÇ Â÷·Êµµ °èº¸µµÀÇ ¼ø¼­·Î ±¸¼ºÇÏ¿´À¸¸ç ºÎ·Ï¿¡ µû·Î ½ÇÇà ¾Ë°í¸®ÁòÀ» Á¤¸®ÇØ ³õ¾Ò´Ù. °­È­ÇнÀÀÇ °èº¸µµ¿Í Á¤¸®µÈ ½ÇÇà ¾Ë°í¸®ÁòÀº °­È­ÇнÀÀ» ºñ±³ÇÏ°í Ư¼ºÀ» ÆľÇÇÏ´Â µ¥ ¸Å¿ì °£´ÜÇÏ°í À¯¿ëÇÑ ÀÏÁ¾ÀÇ summary·Î È°¿ëÇÒ ¼ö ÀÖ´Ù. °èº¸µµ¿¡¼­ (off)´Â ÇØ´ç °­È­ÇнÀÀÌ off-policy¶ó´Â ÀǹÌÀÌ¸ç º°µµÀÇ Ç¥½ÄÀÌ ¾ø´Â °­È­ÇнÀÀº on-policy ÇнÀ¹ýÀÓÀ» ÀǹÌÇÑ´Ù. º»¹®À» °øºÎÇϸé onpolicy¿Í off-policy¸¦ ±¸ºÐÇÒ ¼ö ÀÖ°ÚÁö¸¸ °£´ÜÇÏ°Ô ±¸º°ÇÏ´Â ¹æ¹ýÀº º°µµÀÇ Ç¥º» ÀúÀå°ø°£À¸·ÎºÎÅÍ Ç¥º»À» »Ì¾Æ¼­ policy¸¦ °³¼±Çϸé À̸¦ off-policy¶ó°í »ý°¢ÇÏ°í, ±×·¸Áö ¾ÊÀ¸¸é on-policy¶ó°í »ý°¢ÇÏ¸é µÈ´Ù.
ÁÁÀº Ã¥À» À§ÇØ ÃÖ¼±À» ´ÙÇßÁö¸¸ ºÎÁ·ÇÑ ºÎºÐÀÌ ÀÖÀ» ¼ö ÀÖ´Ù. ÀÌ Á¡Àº ¾çÇظ¦ ¹Ù¶ó¸ç, Ã¥¿¡ ³ª¿À´Â ½Ç½À ÇÁ·Î±×·¥°ú Ãâ°£ ÈÄ ³ª¿Ã ¼ö ÀÖ´Â ¼öÁ¤»çÇ× µîÀº ÀÚÀ¯¾ÆÄ«µ¥¹Ì ȨÆäÀÌÁö(www.freeaca.com) ÀÚ·á½ÇÀ» ÅëÇØ Á¦°øÇÒ ¿¹Á¤ÀÌ´Ï ÂüÁ¶Çϱ⸦ ¹Ù¶õ´Ù.

°ü·ÃÀ̹ÌÁö

ÀúÀÚ¼Ò°³

¹ÚÀ¯¼º [Àú] ½ÅÀ۾˸² SMS½Åû
»ý³â¿ùÀÏ -

ÇØ´çÀÛ°¡¿¡ ´ëÇÑ ¼Ò°³°¡ ¾ø½À´Ï´Ù.

¹ÚÀ¯¼º [Àú] ½ÅÀ۾˸² SMS½Åû
»ý³â¿ùÀÏ -

ÇØ´çÀÛ°¡¿¡ ´ëÇÑ ¼Ò°³°¡ ¾ø½À´Ï´Ù.

Àü°øµµ¼­/´ëÇб³Àç ºÐ¾ß¿¡¼­ ¸¹Àº ȸ¿øÀÌ ±¸¸ÅÇÑ Ã¥

    ¸®ºä

    0.0 (ÃÑ 0°Ç)

    100ÀÚÆò

    ÀÛ¼º½Ã À¯ÀÇ»çÇ×

    ÆòÁ¡
    0/100ÀÚ
    µî·ÏÇϱâ

    100ÀÚÆò

    0.0
    (ÃÑ 0°Ç)

    ÆǸÅÀÚÁ¤º¸

    • ÀÎÅÍÆÄÅ©µµ¼­¿¡ µî·ÏµÈ ¿ÀǸ¶ÄÏ »óÇ°Àº ±× ³»¿ë°ú Ã¥ÀÓÀÌ ¸ðµÎ ÆǸÅÀÚ¿¡°Ô ÀÖÀ¸¸ç, ÀÎÅÍÆÄÅ©µµ¼­´Â ÇØ´ç »óÇ°°ú ³»¿ë¿¡ ´ëÇØ Ã¥ÀÓÁöÁö ¾Ê½À´Ï´Ù.

    »óÈ£

    (ÁÖ)±³º¸¹®°í

    ´ëÇ¥ÀÚ¸í

    ¾Èº´Çö

    »ç¾÷ÀÚµî·Ï¹øÈ£

    102-81-11670

    ¿¬¶ôó

    1544-1900

    ÀüÀÚ¿ìÆíÁÖ¼Ò

    callcenter@kyobobook.co.kr

    Åë½ÅÆǸž÷½Å°í¹øÈ£

    01-0653

    ¿µ¾÷¼ÒÀçÁö

    ¼­¿ïƯº°½Ã Á¾·Î±¸ Á¾·Î 1(Á¾·Î1°¡,±³º¸ºôµù)

    ±³È¯/ȯºÒ

    ¹ÝÇ°/±³È¯ ¹æ¹ý

    ¡®¸¶ÀÌÆäÀÌÁö > Ãë¼Ò/¹ÝÇ°/±³È¯/ȯºÒ¡¯ ¿¡¼­ ½Åû ¶Ç´Â 1:1 ¹®ÀÇ °Ô½ÃÆÇ ¹× °í°´¼¾ÅÍ(1577-2555)¿¡¼­ ½Åû °¡´É

    ¹ÝÇ°/±³È¯°¡´É ±â°£

    º¯½É ¹ÝÇ°ÀÇ °æ¿ì Ãâ°í¿Ï·á ÈÄ 6ÀÏ(¿µ¾÷ÀÏ ±âÁØ) À̳»±îÁö¸¸ °¡´É
    ´Ü, »óÇ°ÀÇ °áÇÔ ¹× °è¾à³»¿ë°ú ´Ù¸¦ °æ¿ì ¹®Á¦Á¡ ¹ß°ß ÈÄ 30ÀÏ À̳»

    ¹ÝÇ°/±³È¯ ºñ¿ë

    º¯½É ȤÀº ±¸¸ÅÂø¿À·Î ÀÎÇÑ ¹ÝÇ°/±³È¯Àº ¹Ý¼Û·á °í°´ ºÎ´ã
    »óÇ°À̳ª ¼­ºñ½º ÀÚüÀÇ ÇÏÀÚ·Î ÀÎÇÑ ±³È¯/¹ÝÇ°Àº ¹Ý¼Û·á ÆǸÅÀÚ ºÎ´ã

    ¹ÝÇ°/±³È¯ ºÒ°¡ »çÀ¯

    ·¼ÒºñÀÚÀÇ Ã¥ÀÓ ÀÖ´Â »çÀ¯·Î »óÇ° µîÀÌ ¼Õ½Ç ¶Ç´Â ÈÑ¼ÕµÈ °æ¿ì
    (´ÜÁö È®ÀÎÀ» À§ÇÑ Æ÷Àå ÈѼÕÀº Á¦¿Ü)

    ·¼ÒºñÀÚÀÇ »ç¿ë, Æ÷Àå °³ºÀ¿¡ ÀÇÇØ »óÇ° µîÀÇ °¡Ä¡°¡ ÇöÀúÈ÷ °¨¼ÒÇÑ °æ¿ì
    ¿¹) È­ÀåÇ°, ½ÄÇ°, °¡ÀüÁ¦Ç°(¾Ç¼¼¼­¸® Æ÷ÇÔ) µî

    ·º¹Á¦°¡ °¡´ÉÇÑ »óÇ° µîÀÇ Æ÷ÀåÀ» ÈѼÕÇÑ °æ¿ì
    ¿¹) À½¹Ý/DVD/ºñµð¿À, ¼ÒÇÁÆ®¿þ¾î, ¸¸È­Ã¥, ÀâÁö, ¿µ»ó È­º¸Áý

    ·½Ã°£ÀÇ °æ°ú¿¡ ÀÇÇØ ÀçÆǸŰ¡ °ï¶õÇÑ Á¤µµ·Î °¡Ä¡°¡ ÇöÀúÈ÷ °¨¼ÒÇÑ °æ¿ì

    ·ÀüÀÚ»ó°Å·¡ µî¿¡¼­ÀÇ ¼ÒºñÀÚº¸È£¿¡ °üÇÑ ¹ý·üÀÌ Á¤ÇÏ´Â ¼ÒºñÀÚ Ã»¾àöȸ Á¦ÇÑ ³»¿ë¿¡ ÇØ´çµÇ´Â °æ¿ì

    »óÇ° Ç°Àý

    °ø±Þ»ç(ÃâÆÇ»ç) Àç°í »çÁ¤¿¡ ÀÇÇØ Ç°Àý/Áö¿¬µÉ ¼ö ÀÖÀ½

    ¼ÒºñÀÚ ÇÇÇغ¸»ó
    ȯºÒÁö¿¬¿¡ µû¸¥ ¹è»ó

    ·»óÇ°ÀÇ ºÒ·®¿¡ ÀÇÇÑ ±³È¯, A/S, ȯºÒ, Ç°Áúº¸Áõ ¹× ÇÇÇغ¸»ó µî¿¡ °üÇÑ »çÇ×Àº ¼ÒºñÀÚºÐÀïÇØ°á ±âÁØ (°øÁ¤°Å·¡À§¿øȸ °í½Ã)¿¡ ÁØÇÏ¿© 󸮵Ê

    ·´ë±Ý ȯºÒ ¹× ȯºÒÁö¿¬¿¡ µû¸¥ ¹è»ó±Ý Áö±Þ Á¶°Ç, ÀýÂ÷ µîÀº ÀüÀÚ»ó°Å·¡ µî¿¡¼­ÀÇ ¼ÒºñÀÚ º¸È£¿¡ °üÇÑ ¹ý·ü¿¡ µû¶ó ó¸®ÇÔ

    (ÁÖ)KGÀ̴Ͻýº ±¸¸Å¾ÈÀü¼­ºñ½º¼­ºñ½º °¡ÀÔ»ç½Ç È®ÀÎ

    (ÁÖ)ÀÎÅÍÆÄÅ©Ä¿¸Ó½º´Â ȸ¿ø´ÔµéÀÇ ¾ÈÀü°Å·¡¸¦ À§ÇØ ±¸¸Å±Ý¾×, °áÁ¦¼ö´Ü¿¡ »ó°ü¾øÀÌ (ÁÖ)ÀÎÅÍÆÄÅ©Ä¿¸Ó½º¸¦ ÅëÇÑ ¸ðµç °Å·¡¿¡ ´ëÇÏ¿©
    (ÁÖ)KGÀ̴Ͻýº°¡ Á¦°øÇÏ´Â ±¸¸Å¾ÈÀü¼­ºñ½º¸¦ Àû¿ëÇÏ°í ÀÖ½À´Ï´Ù.

    ¹è¼Û¾È³»

    • ±³º¸¹®°í »óÇ°Àº Åùè·Î ¹è¼ÛµÇ¸ç, Ãâ°í¿Ï·á 1~2Àϳ» »óÇ°À» ¹Þ¾Æ º¸½Ç ¼ö ÀÖ½À´Ï´Ù.

    • Ãâ°í°¡´É ½Ã°£ÀÌ ¼­·Î ´Ù¸¥ »óÇ°À» ÇÔ²² ÁÖ¹®ÇÒ °æ¿ì Ãâ°í°¡´É ½Ã°£ÀÌ °¡Àå ±ä »óÇ°À» ±âÁØÀ¸·Î ¹è¼ÛµË´Ï´Ù.

    • ±ººÎ´ë, ±³µµ¼Ò µî ƯÁ¤±â°üÀº ¿ìü±¹ Åù踸 ¹è¼Û°¡´ÉÇÕ´Ï´Ù.

    • ¹è¼Ûºñ´Â ¾÷ü ¹è¼Ûºñ Á¤Ã¥¿¡ µû¸¨´Ï´Ù.

    • - µµ¼­ ±¸¸Å ½Ã 15,000¿ø ÀÌ»ó ¹«·á¹è¼Û, 15,000¿ø ¹Ì¸¸ 2,500¿ø - »óÇ°º° ¹è¼Ûºñ°¡ ÀÖ´Â °æ¿ì, »óÇ°º° ¹è¼Ûºñ Á¤Ã¥ Àû¿ë