ํ—ˆ๊น…ํŽ˜์ด์Šค, ๋กœ๋ด‡ AI ํ•™์Šต ํ”Œ๋žซํผ ๋ฌด๋ฃŒ ๊ณต๊ฐœ..."์ตœ๋Œ€ ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ชฉํ‘œ"  (๋งํฌ)

๊ธฐ์‚ฌ ๋‚ด์šฉ ์š”์•ฝ
๋กœ๋ด‡ ํ”„๋กœ์ ํŠธ๋ฅผ ์‹œ์ž‘ํ•œ ํ—ˆ๊น…ํŽ˜์ด์Šค๊ฐ€ ์ฒซ๋ฒˆ์งธ ๊ฒฐ๊ณผ๋ฌผ์„ ๋‚ด๋†“์•˜๋‹ค. ์ „๋ฌธ ๋„๊ตฌ์™€ ์žฅ์น˜๊ฐ€ ์—†๋Š” ๊ฐœ๋ฐœ์ž๋‚˜ ์•„๋งˆ์ถ”์–ด๋„ ์ธ๊ณต์ง€๋Šฅ(AI) ๋กœ๋ด‡์˜ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•œ '๋ฅด๋กœ๋ด‡(LeRobot)'์ด๋ผ๋Š” ์˜คํ”ˆ ์†Œ์Šค ํ”Œ๋žซํผ์ด๋‹ค.
์ด๋ฒˆ์— ๊ณต๊ฐœํ•œ ๋ฅด๋กœ๋ด‡์€ 'ํŠธ๋žœ์Šคํฌ๋จธ' ์•„ํ‚คํ…์ฒ˜์™€ ๊ฐ™์€ ๋กœ๋ด‡ ๊ณตํ•™ ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ๋‹จ์ˆœํ•œ ์†Œํ”„ํŠธ์›จ์–ด ํŒจํ‚ค์ง€๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ฐ์ดํ„ฐ ๊ณต์œ ์™€ ๋น„์ „์–ธ์–ด๋ชจ๋ธ(VLM) ๋ฐ ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ(LLM) ํ•™์Šต์„ ์œ„ํ•œ ๋‹ค๋ชฉ์  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํฌํ•จํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์‚ฌ์šฉ์ž๋Š” ์‚ฌ์ „ ํ›ˆ๋ จํ•œ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์— ์—‘์„ธ์Šค, ํ”„๋กœ์ ํŠธ๋ฅผ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ, ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ์‰ฝ๊ฒŒ ํ†ตํ•ฉ, ํ•˜๋“œ์›จ์–ด๊ฐ€ ์—†๋Š” ๊ฐœ๋ฐœ์ž๋‚˜ ๊ฐœ์ธ์ด ๊ฐ€์ƒ ํ™˜๊ฒฝ์—์„œ AI ๋ชจ๋ธ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ณ  ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ชฉํ‘œ๋Š” ๋ชจ๋“  ํ˜•ํƒœ์˜ ๋กœ๋ด‡์„ ์กฐ์ •ํ•˜๊ณ  ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋Š” AI ์‹œ์Šคํ…œ์„ ์ œ๊ณต, ๋กœ๋ด‡ ์‘์šฉ ๋ถ„์•ผ์˜ ๋‹ค์–‘์„ฑ๊ณผ ํ™•์žฅ์„ฑ์„ ๋ชจ๋‘ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
ํ”Œ๋žซํผ์˜ ์˜คํ”ˆ ์†Œ์Šค ๊ณต๊ฐœ๋Š” AI ๋กœ๋ด‡ ๋ถ„์•ผ์˜ ํ™•์‚ฐ๊ณผ ์†Œ์ˆ˜ ๊ธฐ์—… ์œ„์ฃผ์˜ ๊ฐœ๋ฐœ ์ง‘์ค‘์„ ๋ง‰๊ฒ ๋‹ค๋Š” ์˜๋„๋‹ค. ํ—ˆ๊น…ํŽ˜์ด์Šค๋Š” "์ง„์ž… ์žฅ๋ฒฝ์„ ๋‚ฎ์ถ”๊ณ  ์ง€์‹๊ณผ ๋ฆฌ์†Œ์Šค ๊ณต์œ  ํ™˜๊ฒฝ์„ ์กฐ์„ฑ, AI ๋กœ๋ด‡ ๊ณตํ•™์˜ ํ™˜๊ฒฝ์„ ์žฌ์ •์˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ๋ฅผ ์œก์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค"๋ผ๊ณ  ๋งํ–ˆ๋‹ค.

 

ํ•ต์‹ฌ ์šฉ์–ด
  • ํŠธ๋žœ์Šคํฌ๋จธ(Transformer)๋ž€?
    • ๋ฌธ์žฅ ์† ๋‹จ์–ด์™€ ๊ฐ™์€ ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ ๋‚ด์˜ ๊ด€๊ณ„๋ฅผ ์ถ”์ ํ•ด ๋งฅ๋ฝ๊ณผ ์˜๋ฏธ๋ฅผ ํ•™์Šตํ•˜๋Š” ์‹ ๊ฒฝ๋ง
    • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฟ ์•„๋‹ˆ๋ผ ์ปดํ“จํ„ฐ ๋น„์ „์ด๋‚˜ ์Œ์„ฑ ์ธ์‹ ๋“ฑ ๋‹ค๋ฅธ ๋ถ„์•ผ์—๋„ ์ ์šฉ
    • ๊ตฌ๊ธ€์ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด 2017๋…„ ๋ฐœํ‘œ
  • ๋น„์ „์–ธ์–ด๋ชจ๋ธ(Vision Language Model, VLM)์ด๋ž€?
    • ์ผ์ข…์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋กœ ์‹œ๊ฐ์  ์ •๋ณด์™€ ์–ธ์–ด์  ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•™์Šตํ•œ ๊ฒƒ
  • ๋น„์ „์–ธ์–ด๋ชจ๋ธ์˜ ํ•ต์‹ฌ์š”์†Œ
    • ์ด๋ฏธ์ง€ ์ธ์ฝ”๋” (Image Encoder)
    • ํ…์ŠคํŠธ ์ธ์ฝ”๋” (Text Encoder)
    • ๋‘ ์ธ์ฝ”๋”์˜ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ๋Š” ์ „๋žต

 

โ€ป Reference โ€ป

https://huggingface.co/lerobot (ํ—ˆ๊น…ํŽ˜์ด์Šค ๊ณต์‹ ํ™ˆํŽ˜์ด์ง€ ๋ฅด๋กœ๋ด‡ ์†Œ๊ฐœ)

https://github.com/huggingface/lerobot (ํ—ˆ๊น…ํŽ˜์ด์Šค ๋ฅด๋กœ๋ด‡ ๊นƒํ—ˆ๋ธŒ ์†Œ์Šค) 

 

https://blogs.nvidia.co.kr/blog/what-is-a-transformer-model/ (ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ๊ฐœ๋…)

https://blog-ko.superb-ai.com/what-is-the-transformer-model/ (ํŠธ๋žœ์Šคํฌ๋จธ ์•Œ๊ณ ๋ฆฌ์ฆ˜)

 

https://huggingface.co/blog/vision_language_pretraining#introduction (๋น„์ „์–ธ์–ด๋ชจ๋ธ ๊ด€๋ จ ๋‚ด์šฉ)


 

์ €๋ฒˆ ์ฃผ์— AI EXPO์— ๋‹ค๋…€์™”๋Š”๋ฐ ์นด์ด์ŠคํŠธ ๋ฐœํ‘œ ์„ธ์…˜ ์ค‘ ๋กœ๋ด‡๊ณผ ๊ด€๋ จ๋œ ๋‚ด์šฉ๋„ ๋ช‡ ๊ฐœ ํฌํ•จ๋˜์–ด ์žˆ์—ˆ๋‹ค. ๊ธฐ์‚ฌ์—์„œ์ฒ˜๋Ÿผ AI ๊ฐœ๋ฐœ์˜ ๋‹ค์Œ ๋‹จ๊ณ„๋Š” AI๋ฅผ ๋ฌผ๋ฆฌ์  ์„ธ๊ณ„์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด๋ผ๋Š” ๋ง์ด ๊ณต๊ฐ์ด ๊ฐ”๋‹ค. AI ๊ฐœ๋ฐœ์„ ๋„˜์–ด AI๋ฅผ ์ž˜ ํ™œ์šฉํ•˜๋Š” ๊ธฐ์—…์ด ์„ฑ์žฅํ•  ๊ฒƒ์ด๋ผ๋Š” ๋ง์„ ๋งŽ์ด ๋“ค์—ˆ๋Š”๋ฐ ์ด๋Ÿฐ ์‹œ๊ธฐ์— ์˜คํ”ˆ์†Œ์Šค๋ฅผ ์‚ฌ์šฉํ•ด๋ณธ๋‹ค๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.

 

+ Recent posts