±¹³»µµ¼
Àü°øµµ¼/´ëÇб³Àç
°øÇаè¿
ÄÄÇ»ÅÍ°øÇÐ
2013³â 9¿ù 9ÀÏ ÀÌÈÄ ´©Àû¼öÄ¡ÀÔ´Ï´Ù.
Imitation Learning, ESBAS ¾Ë¾Æº¸±â
Á¤°¡ |
30,000¿ø |
---|
27,000¿ø (10%ÇÒÀÎ)
1,500P (5%Àû¸³)
ÇÒÀÎÇýÅÃ | |
---|---|
Àû¸³ÇýÅà |
|
|
|
Ãß°¡ÇýÅÃ |
|
À̺¥Æ®/±âȹÀü
¿¬°üµµ¼
»óÇ°±Ç
ÀÌ»óÇ°ÀÇ ºÐ·ù
Ã¥¼Ò°³
°ÈÇнÀ(RL)Àº ÀΰøÁö´ÉÀÇ Àαâ ÀÖ°í À¯¸ÁÇÑ ºÐ¾ß·Î º¯ÈÇÏ´Â ¿ä±¸»çÇ׿¡ ´ëÀÀÇØ ÀÌ»óÀûÀÎ ÇൿÀ» ÀÚµ¿À¸·Î °áÁ¤ÇÏ´Â ¿¡ÀÌÀüÆ®¿Í ½º¸¶Æ®ÇÑ ¸ðµ¨À» ¸¸µå´Â ¾Ë°í¸®µëÀÌ´Ù. ÀÌ Ã¥Àº °ÈÇнÀ ¾Ë°í¸®µëÀ» ¸¶½ºÅÍÇÏ°í ÀÚ°¡ÇнÀ(self-learning)ÇÏ´Â ¿¡ÀÌÀüÆ®¸¦ ±¸ÇöÇÏ´Â ¹æ¹ýÀ» ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï µµ¿ÍÁØ´Ù. °ÈÇнÀ¿¡ ÇÊ¿äÇÑ Åø, ¶óÀ̺귯¸®, ¼³Á¤ »çÇ׿¡ ´ëÇÑ ¼Ò°³¸¦ ½ÃÀÛÀ¸·Î °ÈÇнÀÀÇ ºôµùºí·Ï, Q-·¯´×, SARSA ¾Ë°í¸®µë°ú °°Àº °¡Ä¡ ±â¹Ý ¹æ¹ýÀ» »ó¼¼È÷ ´Ù·é´Ù
ÃâÆÇ»ç ¼Æò
¡Ú ÀÌ Ã¥¿¡¼ ´Ù·ç´Â ³»¿ë ¡Ú
¡á OpenAI Gym ÀÎÅÍÆäÀ̽º¸¦ ÀÌ¿ëÇØ Ä«Æ®Æú °ÔÀÓÀ» ÇÏ´Â ¿¡ÀÌÀüÆ® °³¹ß
¡á ¸ðµ¨ ±â¹Ý °ÈÇнÀ Æз¯´ÙÀÓ
¡á µ¿Àû ÇÁ·Î±×·¡¹ÖÀ¸·Î ÇÁ·ÎÁð·¹ÀÌÅ© ¹®Á¦ ÇØ°á
¡á Q-·¯´×°ú SARAS¸¦ ÀÌ¿ëÇØ Åýà °ÔÀÓ ½ÇÇà
¡á µö Q-·¯´×(DQN)À» ÀÌ¿ëÇØ ¾ÆŸ¸® °ÔÀÓ ½ÇÇà
¡á ¾×ÅÍ Å©¸®Æ½°ú REINFORCE¸¦ ÀÌ¿ëÇØ Æú¸®½Ã ±×·¡µð¾ðÆ® ¾Ë°í¸®µë ÇнÀ
¡á PPO¿Í TRPO¸¦ ¿¬¼ÓÇü ·ÎÄÚ¸ð¼Ç ȯ°æ¿¡ »ç¿ë
¡á ÁøÈ Àü·«À» »ç¿ëÇÑ ´Þ Âø·ú ¹®Á¦ ÇØ°á
¡Ú ÀÌ Ã¥ÀÇ ´ë»ó µ¶ÀÚ ¡Ú
ÀΰøÁö´É ¿£Áö´Ï¾î³ª µö·¯´× »ç¿ëÀÚ°¡ °ÈÇнÀ ±âÃʸ¦ ¹è¿ï ¶§ ÀûÇÕÇÏ´Ù. ¶ÇÇÑ °ÈÇнÀ ºÐ¾ßÀÇ ÀϺΠ°í±Þ ±â¼úÀ» ¾Ë°í ½ÍÀº °æ¿ì¿¡µµ À¯¿ëÇÏ´Ù. ´Ù¸¸ Ã¥ ³»¿ëÀ» ÀÌÇØÇÏ·Á¸é ÆÄÀ̽ãÀ» È°¿ëÇÒ ÁÙ ¾Ë¾Æ¾ß ÇÑ´Ù.
¡Ú ÀÌ Ã¥ÀÇ ±¸¼º ¡Ú
1Àå, ¡®°ÈÇнÀÀÇ °³¿ä¡¯¿¡¼´Â °ÈÇнÀÀÌ ÇÊ¿äÇÑ ºÐ¾ß¿Í °ÈÇнÀ ¾Ë°í¸®µëÀ» ÀÌ¹Ì Àû¿ëÇÑ ºÐ¾ß¸¦ ¼³¸íÇÑ´Ù. ¶ÇÇÑ 2ÀåÀÇ ÇÁ·ÎÁ§Æ® ½ÇÇà¿¡ ÇÊ¿äÇÑ Åø, ¶óÀ̺귯¸®, ¼³Á¤(setup)À» ¼³¸íÇÑ´Ù.
2Àå, ¡®°ÈÇнÀ »çÀÌŬ°ú OpenAI Gym ±¸Çö¡¯¿¡¼´Â °ÈÇнÀ ¾Ë°í¸®µëÀÇ ÁÖ¿ä »çÀÌŬ, ¾Ë°í¸®µë °³¹ß¿¡ ÇÊ¿äÇÑ ÅøŶ, ´Ù¾çÇÑ È¯°æ À¯ÇüÀ» ¼³¸íÇÑ´Ù. ·£´ý ¾×¼ÇÀ» ÀÌ¿ëÇØ Ä«Æ®Æú(cartpole)À» Ç÷¹ÀÌÇϱâ À§ÇØ OpenAI Gym ÀÎÅÍÆäÀ̽º¸¦ ÀÌ¿ëÇÑ ·£´ý ¿¡ÀÌÀüÆ®¸¦ °³¹ßÇÒ ¼ö ÀÖ´Ù. ¶ÇÇÑ ´Ù¸¥ ȯ°æÀ» ½ÇÇàÇϱâ À§ÇØ OpenAI Gym ÀÎÅÍÆäÀ̽º¸¦ »ç¿ëÇÏ´Â ¹æ¹ýÀ» ÇнÀÇغ»´Ù.
3Àå, ¡®µ¿Àû ÇÁ·Î±×·¡¹ÖÀ¸·Î ¹®Á¦ ÇØ°áÇϱ⡯¿¡¼´Â ÇÙ½É ¾ÆÀ̵ð¾î, ¿ë¾î, °ÈÇнÀÀÇ Á¢±Ù¹ýÀ» ¼Ò°³ÇÑ´Ù. °ÈÇнÀÀÇ ¸ÞÀÎ ºí·ÏÀ» ÇнÀÇÏ°í ¹®Á¦ ÇØ°áÀ» À§ÇØ °ÈÇнÀ ¾Ë°í¸®µëÀ» ¸¸µå´Â ¹æ¹ýÀÇ ÀϹÝÀûÀÎ ¾ÆÀ̵ð¾î¸¦ °³¹ßÇÑ´Ù. ¶ÇÇÑ ¸ðµ¨ ±â¹Ý°ú ¸ðµ¨ ÇÁ¸® ¾Ë°í¸®µëÀÇ Â÷ÀÌ¿Í °ÈÇнÀ ¾Ë°í¸®µë ºÐ·ù¸¦ ÇнÀÇÒ °ÍÀÌ´Ù. µ¿Àû ÇÁ·Î±×·¡¹ÖÀº ÇÁ·ÎÁð·¹ÀÌÅ©(frozen lake) °ÔÀÓÀ» ÇØ°áÇÏ´Â µ¥ »ç¿ëÇغ»´Ù.
4Àå, ¡®Q-·¯´×°ú SARSA ¾ÖÇø®ÄÉÀ̼ǡ¯¿¡¼´Â °¡Ä¡ ±â¹Ý ¸Þ¼Òµå, ƯÈ÷ µ¿Àû ÇÁ·Î±×·¡¹Ö°ú ´Ù¸£¸ç ´ë±Ô¸ð ¹®Á¦¿¡ È®Àå Àû¿ëÀÌ °¡´ÉÇÑ Q-·¯´×°ú SARSA¸¦ ¼³¸íÇÑ´Ù. ÀÌ ¾Ë°í¸®µëÀ» ÀÌÇØÇϱâ À§ÇØ ÇÁ·ÎÁð·¹ÀÌÅ© °ÔÀÓ¿¡ °ÈÇнÀÀ» Àû¿ëÇÏ°í µ¿Àû ÇÁ·Î±×·¡¹Ö°úÀÇ Â÷À̸¦ ¾Ë¾Æº»´Ù.
5Àå, ¡®DQN¡¯¿¡¼´Â Ưº°È÷ Q-·¯´×¿¡ Àû¿ëÇÑ ½Å°æ¸Á°ú ÄÁº¼·ç¼Ç ½Å°æ¸Á CNNÀ» ¼³¸íÇÑ´Ù. Q-·¯´×°ú ½Å°æ¸ÁÀÇ °áÇÕÀÌ ¾î¶»°Ô ¶Ù¾î³ °á°ú¸¦ ¸¸µé°í ¸¹Àº ¹®Á¦ ÇØ°á¿¡ »ç¿ëµÉ ¼ö ÀÖ´ÂÁö ¾Ë°Ô µÉ °ÍÀÌ´Ù. Ãß°¡·Î DQNÀ» OpenAI Gym ÀÎÅÍÆäÀ̽º¸¦ ÀÌ¿ëÇÑ ¾ÆŸ¸® °ÔÀÓ¿¡ »ç¿ëÇغ»´Ù.
6Àå, ¡®È®·üÀû PG ÃÖÀûÈ ÇнÀ¡¯¿¡¼´Â »õ·Î¿î ¸ðµ¨ ÇÁ¸® ¾Ë°í¸®µë±º(Æú¸®½Ã ±×·¡µð¾ðÆ® ¸Þ¼Òµå)À» ¼Ò°³ÇÑ´Ù. ±×¸®°í Æú¸®½Ã ±×·¡µð¾ðÆ®¿Í °¡Ä¡ ±â¹Ý ¸Þ¼ÒµåÀÇ Â÷ÀÌÁ¡°ú Àå´ÜÁ¡À» ÇнÀÇÑ´Ù. ´ÙÀ½À¸·Î REINFORCE¿Í ¾×ÅÍ Å©¸®Æ½ ¾Ë°í¸®µëÀ» ±¸ÇöÇØ ´Þ Âø·ú ¹®Á¦¸¦ ÇØ°áÇØ º»´Ù.
7Àå, ¡®TRPO¿Í PPO ±¸Çö¡¯¿¡¼´Â Æú¸®½Ã °³¼±À» Á¦¾îÇϱâ À§ÇØ ½Å±Ô ¸ÞÄ¿´ÏÁòÀ» »ç¿ëÇÑ Æú¸®½Ã ±×·¡µð¾ðÆ® ¸Þ¼Òµå º¯°æÀ» Á¦¾ÈÇÑ´Ù. ÀÌ ¸ÞÄ¿´ÏÁòÀº Æú¸®½Ã ±×·¡µð¾ðÆ® ¾Ë°í¸®µëÀÇ ¾ÈÁ¤¼º°ú ¼ö·Å¼ºÀ» °³¼±ÇÏ´Â µ¥ »ç¿ëÇÑ´Ù. ƯÈ÷ TRPO¿Í PPO °°Àº ±â¼úÀ» »ç¿ëÇÑ 2°³ÀÇ ¸ÞÀÎ Æú¸®½Ã ±×·¡µð¾ðÆ® ¸Þ¼Òµå¸¦ ±¸ÇöÇÑ´Ù. ¿¬¼ÓÇü ¾×¼Ç °ø°£À» °¡Áø ȯ°æÀÎ ·Îº¸½ºÄð(RoboSchool)¿¡ ±¸ÇöÇغ»´Ù.
8Àå, ¡®DDPG¿Í TD3 ¾ÖÇø®ÄÉÀ̼ǡ¯¿¡¼´Â Æú¸®½Ã ±×·¡µð¾ðÆ®¿Í Q-·¯´×À» ¸ðµÎ °áÇÕÇÑ °áÁ¤Àû Æú¸®½Ã ¾Ë°í¸®µëÀ̶ó´Â ½Å±Ô ¾Ë°í¸®µëÀ» ¼Ò°³ÇÑ´Ù. ³»ºÎ ÄÁ¼ÁÀ» ÇнÀÇÏ°í ½Å±Ô È¯°æ¿¡¼ 2°³ÀÇ µö °áÁ¤Àû ¾Ë°í¸®µëÀÎ DDPG¿Í TD3¸¦ ±¸ÇöÇغ»´Ù.
9Àå, ¡®¸ðµ¨ ±â¹Ý °ÈÇнÀ¡¯¿¡¼´Â ¹Ì·¡ ¾×¼ÇÀ» °èȹÇϰųª ȯ°æ ¸ðµ¨À» ÇнÀÇÏ´Â °ÈÇнÀ ¾Ë°í¸®µëÀ» ¼³¸íÇÑ´Ù. °ÈÇнÀ ¾Ë°í¸®µëÀÇ ÀÛµ¿ ¹æ¹ý, ÀåÁ¡, ¸¹Àº »óȲ¿¡¼ ¼±È£ÇÏ´Â ÀÌÀ¯¸¦ ¾Ë°Ô µÉ °ÍÀÌ´Ù. ¸ðµ¨ ±â¹Ý °ÈÇнÀÀ» ¸¶½ºÅÍÇϱâ À§ÇØ ·Îº¸½ºÄð¿¡¼ ¸ðµ¨ ±â¹Ý ¾Ë°í¸®µëÀ» ±¸ÇöÇغ»´Ù.
10Àå, ¡®DAgger ¾Ë°í¸®µëÀ¸·Î À̹ÌÅ×ÀÌ¼Ç ÇнÀÇϱ⡯¿¡¼´Â À̹ÌÅ×ÀÌ¼Ç ÇнÀÀÇ ÀÛµ¿ ¹æ¹ý°ú ¹®Á¦¿¡ Àû¿ëÇÏ°í ÀûÇÕÈÇÏ´Â ¹æ¹ýÀ» ¼³¸íÇÑ´Ù. °¡Àå Àß ¾Ë·ÁÁø À̹ÌÅ×ÀÌ¼Ç ÇнÀ ¾Ë°í¸®µëÀÎ DAgger¸¦ ÇнÀÇÑ´Ù. ÀÌ ¾Ë°í¸®µëÀ» Àß ÀÌÇØÇϱâ À§ÇØ Ç÷¡ÇÇ ¹öµå(Flappy Bird)¿¡¼ ¿¡ÀÌÀüÆ®ÀÇ ÇнÀ°úÁ¤ ¼Óµµ¸¦ ³ôÀÌ´Â µ¥ È°¿ëÇØ º»´Ù.
11Àå, ¡®ºí·¢¹Ú½º ÃÖÀûÈ ¾Ë°í¸®µë ÀÌÇØÇϱ⡯¿¡¼´Â ¿ªÀüÆÄ¿¡ ÀÇÁ¸ÇÏÁö ¾Ê´Â ºí·¢¹Ú½º ÃÖÀûÈ ¾Ë°í¸®µëÀÎ ÁøÈ ¾Ë°í¸®µëÀ» ¾Ë¾Æº»´Ù. ÀÌ ¾Ë°í¸®µëÀº ºü¸¥ ÈƷðú ¼ö¹é, ¼öõ °³ Äھ ÀÌ¿ëÇÑ ½¬¿î º´·ÄÈ ¶§¹®¿¡ °ü½É ¹Þ°í ÀÖ´Ù. 11ÀåÀº ÀÏÁ¾ÀÇ ÁøÈ ¾Ë°í¸®µëÀÎ ÁøÈ Àü·« ¾Ë°í¸®µë¿¡ ÃÊÁ¡À» µÖ ÀÌ À̷п¡ ´ëÇÑ ÀÌ·ÐÀû ½ÇÁ¦ Àû¿ë ¹è°æÀ» ¼³¸íÇÑ´Ù.
12Àå, ¡®ESBAS ¾Ë°í¸®µë °³¹ßÇϱ⡯¿¡¼´Â °ÈÇнÀ¿¡ Æ¯ÈµÈ Áß¿äÇÑ Å½»ö-È°¿ë µô·¹¸¶¸¦ ¼Ò°³ÇÑ´Ù. ÀÌ µô·¹¸¶´Â ¸ÖƼ ¾ÏÆ® ¹êµ÷ ¹®Á¦¸¦ ÀÌ¿ëÇØ µ¥¸ð ½Ã¿¬À» ÇÏ°í UCB¿Í UCB1 °°Àº Á¢±Ù¹ýÀ¸·Î ÇØ°áÇÒ °ÍÀÌ´Ù. ´ÙÀ½À¸·Î ¾Ë°í¸®µë ¼±Åà ¹®Á¦¸¦ ÇнÀÇÏ°í ESBAS ¸ÞŸ ¾Ë°í¸®µëÀ» °³¹ßÇÑ´Ù. ÀÌ ¾Ë°í¸®µëÀº °³º° »óȲ¿¡¼ °¡Àå ÀûÇÕÇÑ °ÈÇнÀ ¾Ë°í¸®µëÀ» ¼±ÅÃÇÏ´Â UCB1À» ÀÌ¿ëÇÑ´Ù.
13Àå, ¡®°ÈÇнÀÀÇ µµÀüÀû °úÁ¦¸¦ ÇØ°áÇϱâ À§ÇÑ ½ÇÁ¦ ±¸Çö¡¯¿¡¼´Â ÀÌ ºÐ¾ßÀÇ ÁÖ¿ä µµÀü °úÁ¦¸¦ »ìÆ캸°í À̸¦ ±Øº¹Çϱâ À§ÇÑ ¸î °¡Áö »ç·Ê¿Í ¸Þ¼Òµå¸¦ ¼³¸íÇÑ´Ù. °ÈÇнÀÀ» ½ÇÁ¦ Çö½Ç ¹®Á¦¿¡ Àû¿ëÇϱâ À§ÇÑ ¸î °¡Áö µµÀü °úÁ¦, µö °ÈÇнÀÀÇ ¹Ì·¡ °³¹ß, Çö½Ç¿¡¼ÀÇ »çȸÀû ÀÓÆÑÆ®¸¦ ÇнÀÇÑ´Ù.
¸ñÂ÷
1ºÎ. ¾Ë°í¸®µë°ú ȯ°æ
1Àå. °ÈÇнÀÀÇ °³¿ä
__°ÈÇнÀ ¼Ò°³
______°ÈÇнÀ°ú ÁöµµÇнÀÀÇ ºñ±³
____°ÈÇнÀÀÇ ¿ª»ç
____µö °ÈÇнÀ
__°ÈÇнÀÀÇ ±¸¼º ¿ä¼Ò
____Æú¸®½Ã
____°¡Ä¡ÇÔ¼ö
____º¸»ó
____¸ðµ¨
__°ÈÇнÀ ¾ÖÇø®ÄÉÀ̼Ç
____°ÔÀÓ
____·Îº¿°ú Àδõ½ºÆ®¸® 4.0
____±â°èÇнÀ
____°æÁ¦¿Í ±ÝÀ¶
____ÇコÄɾî
____Áö´ÉÇü ±³Åë½Ã½ºÅÛ
____¿¡³ÊÁö ÃÖÀûÈ¿Í ½º¸¶Æ® ±×¸®µå
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
2Àå. °ÈÇнÀ »çÀÌŬ°ú OpenAI Gym ±¸ÇöÇϱâ
__ȯ°æ ¼³Á¤Çϱâ
____OpenAI Gym ¼³Ä¡Çϱâ
____·Îº¸½ºÄ𠼳ġÇϱâ
__OpenAI Gym°ú °ÈÇнÀ »çÀÌŬ
____°ÈÇнÀ »çÀÌŬ °³¹ßÇϱâ
____°ø°£¿¡ Àͼ÷ÇØÁö±â
____ÅÙ¼Ç÷οì 2.X
________Áï½Ã ½ÇÇà
________¿ÀÅä±×·¡ÇÁ
__ÅÙ¼ÇÃ·Î¿ì ±â¹Ý ±â°èÇнÀ ¸ðµ¨ °³¹ß
____ÅÙ¼
________»ó¼ö
________º¯¼ö
________±×·¡ÇÁ »ý¼ºÇϱâ
____°£´ÜÇÑ ¼±Çüȸ±Í ¿¹Á¦
____ÅÙ¼º¸µå µµÀÔÇϱâ
__°ÈÇнÀ ȯ°æÀÇ À¯Çü
____¿Ö ´Ù¸¥ ȯ°æÀΰ¡?
____¿ÀǼҽº ȯ°æ
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
3Àå. µ¿Àû ÇÁ·Î±×·¡¹ÖDPÀ¸·Î ¹®Á¦ ÇØ°áÇϱâ
__MDP
____Æú¸®½Ã
____°¨°¡À²°ú ¸®ÅÏ
____°¡Ä¡ÇÔ¼ö
____º§¸¸ ¹æÁ¤½Ä
__°ÈÇнÀ ¾Ë°í¸®µë ºÐ·ù
____¸ðµ¨ ÇÁ¸® ¾Ë°í¸®µë
________°¡Ä¡ ±â¹Ý ¾Ë°í¸®µë
________Æú¸®½Ã ±×·¡µð¾ðÆ® ¾Ë°í¸®µë
________¾×ÅÍ Å©¸®Æ½ ¾Ë°í¸®µë
________ÇÏÀ̺긮µå ¾Ë°í¸®µë
____¸ðµ¨ ±â¹Ý °ÈÇнÀ
____¾Ë°í¸®µë ´Ù¾çÈ
__DP
____Æú¸®½Ã Æò°¡¿Í Æú¸®½Ã °³¼±
____Æú¸®½Ã ÀÌÅÍ·¹À̼Ç
________ÇÁ·ÎÁð·¹ÀÌÅ©¿¡ Àû¿ëµÈ Æú¸®½Ã ÀÌÅÍ·¹À̼Ç
____°¡Ä¡ ÀÌÅÍ·¹À̼Ç
________ÇÁ·ÎÁð·¹ÀÌÅ©¿¡ Àû¿ëÇÑ °¡Ä¡ ÀÌÅÍ·¹À̼Ç
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
2ºÎ. ¸ðµ¨ ÇÁ¸® °ÈÇнÀ ¾Ë°í¸®µë
4Àå. Q-·¯´×°ú SARSA ¾ÖÇø®ÄÉÀ̼Ç
__¸ðµ¨¾øÀÌ ÇнÀÇϱâ
____»ç¿ëÀÚ °æÇè
____Æú¸®½Ã Æò°¡
____Ž»ö ¹®Á¦
________¿Ö Ž»öÇØ¾ß Çϴ°¡?
________Ž»ö ¹æ¹ý
__½Ã°£Â÷ ÇнÀ
____½Ã°£Â÷ ¾÷µ¥ÀÌÆ®
____Æú¸®½Ã °³¼±
____¸óÅ×Ä«¸¦·Î¿Í ½Ã°£Â÷ ºñ±³
__SARSA
____¾Ë°í¸®µë
__Taxi-v2¿¡ SARSA Àû¿ëÇϱâ
__Q-·¯´×
____ÀÌ·Ð
____¾Ë°í¸®µë
__Taxi-v2¿¡ Q-·¯´× Àû¿ëÇϱâ
____SARSA¿Í Q-·¯´× ºñ±³
__¿ä¾à
__Áú¹®
5Àå. Deep Q-Network
__½ÉÃþ½Å°æ¸Á°ú Q-·¯´×
____ÇÔ¼ö ±Ù»ç
____½Å°æ¸ÁÀ» ÀÌ¿ëÇÑ Q-·¯´×
____µö Q-·¯´×ÀÇ ºÒ¾ÈÁ¤¼º
__DQN
____ÇØ°áÃ¥
________¸®Ç÷¹ÀÌ ¸Þ¸ð¸®
________Ÿ±ê ³×Æ®¿öÅ©
____DQN ¾Ë°í¸®µë
________¼Õ½ÇÇÔ¼ö
________ÀÇ»çÄÚµå
____¸ðµ¨ ¾ÆÅ°ÅØó
__DQNÀ» Æþ¿¡ Àû¿ëÇϱâ
____¾ÆŸ¸® °ÔÀÓ
____Àü ó¸®
____DQN ±¸Çö
________DNN
________°æÇè ¹öÆÛ
________°è»ê ±×·¡ÇÁ¿Í ÈÆ·Ã ·çÇÁ
____°á°ú
__DQN °³¼± ¾Ë°í¸®µë
____Double DQN
________DDQN ±¸Çö
________°á°ú
____DQN µà¾ó¸µÇϱâ
________µà¾ó¸µ DQN ±¸Çö
________°á°ú
____N-½ºÅÜ DQN
________±¸Çö
________°á°ú
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
6Àå. È®·ü ±â¹Ý PG ÃÖÀûÈ ÇнÀ
__Æú¸®½Ã ±×·¡µð¾ðÆ® ¸Þ¼Òµå
____Æú¸®½ÃÀÇ ±×·¡µð¾ðÆ®
____Æú¸®½Ã ±×·¡µð¾ðÆ® Á¤¸®
____±×·¡µð¾ðÆ® °è»êÇϱâ
____Æú¸®½Ã
____¿Â-Æú¸®½Ã PG
__REINFORCE ¾Ë°í¸®µë ÀÌÇØÇϱâ
____REINFORCE ±¸ÇöÇϱâ
____REINFORCE¸¦ ÀÌ¿ëÇØ Å½»ç¼± Âø·ú½ÃÅ°±â
________°á°ú ºÐ¼®Çϱâ
__º£À̽º¶óÀÎÀÌ ÀÖ´Â REINFORCE
____º£À̽º¶óÀÎÀ¸·Î REINFORCE ±¸ÇöÇϱâ
__AC ¾Ë°í¸®µë ÇнÀÇϱâ
____¾×ÅÍ°¡ ÇнÀÇϵµ·Ï µ½±â À§ÇØ Å©¸®Æ½ »ç¿ëÇϱâ
____n-step AC ¸ðµ¨
____AC ±¸Çö
____AC¸¦ »ç¿ëÇØ Å½»ç¼±spacecraft Âø·ú½ÃÅ°±â
____°í±Þ AC ÆÁ°ú Æ®¸¯
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
7Àå. TRPO¿Í PPO ±¸Çö
__·Îº¸½ºÄð
____¿¬¼Ó ½Ã½ºÅÛ Á¦¾î
__Natural Policy Gradient
____NPG¿¡ ´ëÇÑ ¾ÆÀ̵ð¾î
____¼öÇÐÀû °³³ä
________FIM°ú KL ¹ß»ê
____NG ¹®Á¦
__TRPO
____TRPO ¾Ë°í¸®µë
____TRPO ¾Ë°í¸®µë ±¸Çö
____TRPO ¾ÖÇø®ÄÉÀ̼Ç
__Proximal Policy Optimization
____PPOÀÇ °³¿ä
____PPO ¾Ë°í¸®µë
____PPOÀÇ ±¸Çö
____PPO ¾ÖÇø®ÄÉÀ̼Ç
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
8Àå. DDPG¿Í TD3 ¾ÖÇø®ÄÉÀ̼Ç
__Æú¸®½Ã ±×·¡µð¾ðÆ® ÃÖÀûÈ¿Í Q-·¯´× °áÇÕÇϱâ
____°áÁ¤·ÐÀû Æú¸®½Ã ±×·¡µð¾ðÆ®
____DDPG ¾Ë°í¸®µë
____DDPG ±¸Çö
____DDPG¸¦ BipedalWalker-v2¿¡ Àû¿ëÇϱâ
__TD3 Æú¸®½Ã ±×·¡µð¾ðÆ®
____°ú´ëÆò°¡ ÆíÇâ ¹®Á¦ ÇØ°á
________TD3ÀÇ ±¸Çö
____ºÐ»ê °¨¼Ò ÇØ°á
________Áö¿¬µÈ Æú¸®½Ã ¾÷µ¥ÀÌÆ®
________Ÿ±ê Á¤±ÔÈ
____BipedalWalker¿¡ TD3¸¦ Àû¿ëÇϱâ
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
3ºÎ. ¸ðµ¨ ÇÁ¸® ¾Ë°í¸®µë°ú °³¼±
9Àå. ¸ðµ¨ ±â¹Ý °ÈÇнÀ
__¸ðµ¨ ±â¹Ý ¸Þ¼Òµå
____¸ðµ¨ ±â¹Ý ÇнÀ¿¡ ´ëÇÑ Æø³ÐÀº °üÁ¡
________¾Ë·ÁÁø ¸ðµ¨
________¹ÌÁöÀÇ ¸ðµ¨
____Àå´ÜÁ¡
__¸ðµ¨ ±â¹Ý ÇнÀ°ú ¸ðµ¨ ÇÁ¸® ÇнÀ °áÇÕÇϱâ
____¸ðµ¨ ±â¹Ý°ú ¸ðµ¨ ÇÁ¸® Á¢±Ù¹ýÀÇ À¯¿ëÇÑ Á¶ÇÕ
____À̹ÌÁö¿¡¼ ¸ðµ¨ ¸¸µé±â
__¿ªÁøÀÚ¿¡ Àû¿ëÇÑ ME-TRPO ¸ðµ¨
____ME-TRPO ÀÌÇØÇϱâ
____ME-TRPO ±¸ÇöÇϱâ
____·Îº¸½ºÄð ½ÇÇèÇϱâ
________·Îº¸½ºÄ𠿪ÁøÀÚ ½ÇÇè °á°ú
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
10Àå. DAgger ¾Ë°í¸®µëÀ¸·Î ¸ð¹æ ÇнÀÇϱâ
__±â¼úÀû ¿ä±¸ »çÇ×
____Flappy Bird ¼³Ä¡
__¸ð¹æ Á¢±Ù
____¿îÀü º¸Á¶ »ç·Ê
____IL°ú RL ºñ±³Çϱâ
____¸ð¹æ ÇнÀ¿¡¼ Àü¹®°¡ÀÇ ¿ªÇÒ
____IL ±¸Á¶
________¼öµ¿ ¸ð¹æ°ú ´Éµ¿ ¸ð¹æ ºñ±³Çϱâ
__Flappy Bird °ÔÀÓÇϱâ
____ȯ°æÀ» ÀÌ¿ëÇÏ´Â ¹æ¹ý
__µ¥ÀÌÅÍ ÁýÇÕdataset Áý°è ¾Ë°í¸®µë ÀÌÇØÇϱâ
____DAgger ¾Ë°í¸®µë
____DAggerÀÇ ±¸Çö
________Àü¹®°¡ Ãß·Ð ¸ðµ¨ ÀûÀç
________ÇнÀÀÚÀÇ °è»ê ±×·¡ÇÁ ¸¸µé±â
________DAgger loop ¸¸µé±â
____Flappy Bird °á°ú ºÐ¼®
__IRL
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
11Àå. ºí·¢¹Ú½º ÃÖÀûÈ ¾Ë°í¸®µë ÀÌÇØÇϱâ
__°ÈÇнÀÀÇ ´ë¾È
____°ÈÇнÀ¿¡ ´ëÇÑ °£´ÜÇÑ ¿ä¾à
____´ë¾È
________EAs
__EAÀÇ ÇÙ½É
____À¯ÀüÀÚ ¾Ë°í¸®µëGA
____ÁøÈ Àü·«
________CMA-ES
________ES ´ë RL
__È®Àå °¡´ÉÇÑ ÁøÈ Àü·«
____ÇÙ½É
________ES º´·ÄÈÇϱâ
________´Ù¸¥ Æ®¸¯
________ÀÇ»ç ÄÚµå
____È®Àå °¡´ÉÇÑ ±¸Çö
________¸ÞÀÎ ÇÔ¼ö
________ÀÛ¾÷ÀÚ
__È®Àå °¡´ÉÇÑ ES¸¦ LunarLander¿¡ Àû¿ëÇϱâ
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
12Àå. ESBAS ¾Ë°í¸®µë °³¹ßÇϱâ
__Ž»ö ´ë È°¿ë
____¸ÖƼ ¾Ïµå ¹êµ÷
__Ž»ö Á¢±Ù¹ý
____Ž¿å Àü·«
____UCB ¾Ë°í¸®µë
________UCB1
____Ž»ö º¹Àâµµ
__ESBAS
____¾Ë°í¸®µë ¼±Åà ¾Ë¾Æº¸±â
____ESBAS ³»ºÎ ±¸Á¶
____±¸Çö
____Acrobot ½ÇÇàÇϱâ
________°á°ú
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
13Àå. °ÈÇнÀ ¹®Á¦¸¦ ÇØ°áÇϱâ À§ÇÑ ½ÇÁ¦ ±¸Çö
__µö °ÈÇнÀÀÇ ¸ð¹ü »ç·Ê
____ÀûÇÕÇÑ ¾Ë°í¸®µë ¼±ÅÃÇϱâ
____°ÈÇнÀ ¾Ë°í¸®µë °³¹ßÇϱâ
__µö °ÈÇнÀÀÇ µµÀü °úÁ¦
____¾ÈÁ¤¼º°ú ÀçÇö¼º
____È¿À²¼º
____ÀϹÝÈ
__°í±Þ ±â¼ú
____ºñÁöµµ °ÈÇнÀ
________³»ÀçÀû º¸»ó
____ÀüÀÌ ÇнÀ
________ÀüÀÌ ÇнÀÀÇ À¯Çü
__Çö½Ç¿¡¼ÀÇ °ÈÇнÀ
____°ÈÇнÀÀ» Çö½Ç¿¡ Àû¿ëÇÒ ¶§ ÇØ°áÇØ¾ß ÇÒ ¹®Á¦
____½Ã¹Ä·¹À̼ǰú Çö½Ç »çÀÌÀÇ Â÷ÀÌ ÁÙÀ̱â
____Àڱ⸸ÀÇ È¯°æ ¸¸µé±â
__°ÈÇнÀÀÇ ¹Ì·¡¿Í »çȸ¿¡ ¹ÌÄ¡´Â ¿µÇâ
__¿ä¾à
__Áú¹®
__½ÉÈÇнÀ ÀÚ·á
ÀúÀÚ¼Ò°³
»ý³â¿ùÀÏ | - |
---|
ÇØ´çÀÛ°¡¿¡ ´ëÇÑ ¼Ò°³°¡ ¾ø½À´Ï´Ù.
»ý³â¿ùÀÏ | - |
---|
ÇØ´çÀÛ°¡¿¡ ´ëÇÑ ¼Ò°³°¡ ¾ø½À´Ï´Ù.
ÁÖ°£·©Å·
´õº¸±â»óÇ°Á¤º¸Á¦°ø°í½Ã
À̺¥Æ® ±âȹÀü
ÀÌ »óÇ°ÀÇ ½Ã¸®Áî
(ÃÑ 104±Ç / ÇöÀ籸¸Å °¡´Éµµ¼ 0±Ç)
Àü°øµµ¼/´ëÇб³Àç ºÐ¾ß¿¡¼ ¸¹Àº ȸ¿øÀÌ ±¸¸ÅÇÑ Ã¥
ÆǸÅÀÚÁ¤º¸
»óÈ£ |
(ÁÖ)±³º¸¹®°í |
---|---|
´ëÇ¥ÀÚ¸í |
¾Èº´Çö |
»ç¾÷ÀÚµî·Ï¹øÈ£ |
102-81-11670 |
¿¬¶ôó |
1544-1900 |
ÀüÀÚ¿ìÆíÁÖ¼Ò |
callcenter@kyobobook.co.kr |
Åë½ÅÆǸž÷½Å°í¹øÈ£ |
01-0653 |
¿µ¾÷¼ÒÀçÁö |
¼¿ïƯº°½Ã Á¾·Î±¸ Á¾·Î 1(Á¾·Î1°¡,±³º¸ºôµù) |
±³È¯/ȯºÒ
¹ÝÇ°/±³È¯ ¹æ¹ý |
¡®¸¶ÀÌÆäÀÌÁö > Ãë¼Ò/¹ÝÇ°/±³È¯/ȯºÒ¡¯ ¿¡¼ ½Åû ¶Ç´Â 1:1 ¹®ÀÇ °Ô½ÃÆÇ ¹× °í°´¼¾ÅÍ(1577-2555)¿¡¼ ½Åû °¡´É |
---|---|
¹ÝÇ°/±³È¯°¡´É ±â°£ |
º¯½É ¹ÝÇ°ÀÇ °æ¿ì Ãâ°í¿Ï·á ÈÄ 6ÀÏ(¿µ¾÷ÀÏ ±âÁØ) À̳»±îÁö¸¸ °¡´É |
¹ÝÇ°/±³È¯ ºñ¿ë |
º¯½É ȤÀº ±¸¸ÅÂø¿À·Î ÀÎÇÑ ¹ÝÇ°/±³È¯Àº ¹Ý¼Û·á °í°´ ºÎ´ã |
¹ÝÇ°/±³È¯ ºÒ°¡ »çÀ¯ |
·¼ÒºñÀÚÀÇ Ã¥ÀÓ ÀÖ´Â »çÀ¯·Î »óÇ° µîÀÌ ¼Õ½Ç ¶Ç´Â ÈÑ¼ÕµÈ °æ¿ì ·¼ÒºñÀÚÀÇ »ç¿ë, Æ÷Àå °³ºÀ¿¡ ÀÇÇØ »óÇ° µîÀÇ °¡Ä¡°¡ ÇöÀúÈ÷ °¨¼ÒÇÑ °æ¿ì ·º¹Á¦°¡ °¡´ÉÇÑ »óÇ° µîÀÇ Æ÷ÀåÀ» ÈѼÕÇÑ °æ¿ì ·½Ã°£ÀÇ °æ°ú¿¡ ÀÇÇØ ÀçÆǸŰ¡ °ï¶õÇÑ Á¤µµ·Î °¡Ä¡°¡ ÇöÀúÈ÷ °¨¼ÒÇÑ °æ¿ì ·ÀüÀÚ»ó°Å·¡ µî¿¡¼ÀÇ ¼ÒºñÀÚº¸È£¿¡ °üÇÑ ¹ý·üÀÌ Á¤ÇÏ´Â ¼ÒºñÀÚ Ã»¾àöȸ Á¦ÇÑ ³»¿ë¿¡ ÇØ´çµÇ´Â °æ¿ì |
»óÇ° Ç°Àý |
°ø±Þ»ç(ÃâÆÇ»ç) Àç°í »çÁ¤¿¡ ÀÇÇØ Ç°Àý/Áö¿¬µÉ ¼ö ÀÖÀ½ |
¼ÒºñÀÚ ÇÇÇغ¸»ó |
·»óÇ°ÀÇ ºÒ·®¿¡ ÀÇÇÑ ±³È¯, A/S, ȯºÒ, Ç°Áúº¸Áõ ¹× ÇÇÇغ¸»ó µî¿¡ °üÇÑ »çÇ×Àº¼ÒºñÀÚºÐÀïÇØ°á ±âÁØ (°øÁ¤°Å·¡À§¿øȸ °í½Ã)¿¡ ÁØÇÏ¿© ó¸®µÊ ·´ë±Ý ȯºÒ ¹× ȯºÒÁö¿¬¿¡ µû¸¥ ¹è»ó±Ý Áö±Þ Á¶°Ç, ÀýÂ÷ µîÀº ÀüÀÚ»ó°Å·¡ µî¿¡¼ÀǼҺñÀÚ º¸È£¿¡ °üÇÑ ¹ý·ü¿¡ µû¶ó ó¸®ÇÔ |
¹è¼Û¾È³»
±³º¸¹®°í »óÇ°Àº Åùè·Î ¹è¼ÛµÇ¸ç, Ãâ°í¿Ï·á 1~2Àϳ» »óÇ°À» ¹Þ¾Æ º¸½Ç ¼ö ÀÖ½À´Ï´Ù.
Ãâ°í°¡´É ½Ã°£ÀÌ ¼·Î ´Ù¸¥ »óÇ°À» ÇÔ²² ÁÖ¹®ÇÒ °æ¿ì Ãâ°í°¡´É ½Ã°£ÀÌ °¡Àå ±ä »óÇ°À» ±âÁØÀ¸·Î ¹è¼ÛµË´Ï´Ù.
±ººÎ´ë, ±³µµ¼Ò µî ƯÁ¤±â°üÀº ¿ìü±¹ Åù踸 ¹è¼Û°¡´ÉÇÕ´Ï´Ù.
¹è¼Ûºñ´Â ¾÷ü ¹è¼Ûºñ Á¤Ã¥¿¡ µû¸¨´Ï´Ù.