달력

9

« 2019/9 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  •  
  •  
  •  
  •  
  •  

로봇기술은 크게 운동지능(mobile intelligence), 인지지능(cognitive intelligence), 판단지능(decisive intelligence)로 이루어진다. 현재 기술수준으로는 운동지능은 이미 정확도면에서 반복성면에서 피로도 면에서 인간의 능력(Human capability)을 압도(overwhelming)한다. 인지능력도 거의 99%수준에 다다른 것으로 보인다. 기계학습기술의 발전으로 시각능력 청각능력의 발전속도가 혁신적이다. 현재 인간의 육성명령을 이해하는 수준은 실용화 수준에 근접한 것으로 보인다. 시각인식 능력 또한 실시간 동영상을 이해하는 수준까지 와있는 것으로 보인다. 이제 남은 분야는 판단지능이다. 사물과 사물간의 관계인식, 연역적 추론 기능에 대한 연구가 계속되고 있다. 기계가 이 판단지능 영역까지 인간의 수준을 뛰어넘게 되면 어떤일이 벌어질까. 그야말로 완전 자율성(autonomy) 능력을 갖춘다는 의미이다. 이와 같이 로봇과 인공지능(artificial intelligence)은 뗄레야 뗄 수 없는 상호 의존적 관계를 갖는다. 인간이 신체와 정신으로 이루어지듯이 로봇과 인공지능과의 관계 또한 그러하다. 로봇은 신체의 역할을 하게되고, 인공지능은 신체를 통제하고 지각을 통해 사유하는 역할을 하게된다. 과연 인간이 인간 스스로의 사유능력을 기계에 부여할 수 있을까. 우리가 사물을 보고, 관찰을 통해 원리를 깨닫듯이, 기계 또한 인공지능의 특이점(singularity)을 넘어 강한 인공지능을 갖게 될 날이 우리 살아 생전에 오게 될 것인가. 오게 된다면, 그 단서는 어디에서 부터 시작될까. 현재 인공지능 연구자들에게 주어진 과제이다. 이 미지의 영역을 밟게 되는 날은 닐 암스트롱이 달나라에 첫발을 내딛는 것을 능가하는 인류사에 획기적인 날이 될 것이다. 그 순간 인간의 생활과 사회는 완전히 바뀌게 될 것이다. 모든 사물이 초연결되고, 작은 칩에 인공지능 의식이 투영되어, 모든 사물이 의인화되는 세상, 세상자체가 로봇화(Robotized World)가 될 것이다. 이 기술의 파급력은 어마어마하기에 지금 반도체, 자동차 산업의 수백배 아니 모든 전 지구의 산업규모를 다 합친 규모의 초거대 산업이 로봇산업이 차지하게 될 것이기 때문에 전세계 산업 과학 기술 선도국들은 국력을 쏟아 부으며 이 기술의 이니셔티브를 잡기 위해 초도고의 기술개발 경쟁을 벌이고 있는 것이다. 여기에 뒤쳐지는 나라는 그야말로 100년 식민지가 되듯이 로봇의 패권국가에 종속될 것으로 보인다. 그렇다면 국가의 역할은 무엇일까. 세상이 어떻게 바뀌는지 인공지능의 연구방향, 빅데이터를 기반으로 한 경제 지형이 어떻게 바뀌는지 정잭결정자들은 고민해야 한다. 교육체계도 혁신적으로 바뀌어야 한다. 스카이캐슬의 이야기가 우리를 숨막히게 하고 있다. 과연 엘리트 교육이 현재의 기술경쟁 쳬계에서 주도할 수 있는 인재 양성방법인지 냉정히 돌아볼때다. 우수인력의 해외유출현상도 심각하다. 우수인재가 국내에서 활개를 펼칠 수 있는 생태 환경이 조성되어 있는지도 살펴볼 때다. 우리의 산업구도 또한 과연 언제까지 제조경쟁력을 유지할 수 있는지 점검할 때다. 중국에 추격당하고 글로벌 산업경쟁력은 점점 떨어지고 우려가 도처에서 감지되고 있다. 

Posted by 사용자 고경철(kckoh)

댓글을 달아 주세요

2018.11.23 14:23

RA vs RL 인공지능로봇/머신러닝강좌2018.11.23 14:23

Regression Algorithm


통계학에서 Regression Algorithm이란 다른 변수에 영향을 주는 원인에 해당하는 독립변수와 독립변수로 인해서 영향을 받는 결과에 해당하는 종속변수가 존재할 때, 두 변수들 사의의 관계를 구체적인 함수의 식으로 정의하고 새로운 독립변수가 주어졌을때, 이에 해당하는 종속변수를 예측하는 알고리즘이다. 이때 독립변수와 종속변수가 각각 하나일때는 Simple Regression Algorithm이라고 하고, 종속변수가 1개이고, 독립변수가 2개이상일 경우 Multiple Regression Algorithm이라고 한다. 

SVR(Support Vector Regression)도 Regression Alogorithm의 일종이다. SVR은 SVM(Support Vector Machine)의 일반화된 방법이다. SVM은 기계학습의 하나로 패턴인식, 자료분석을 위한 Supervised Learning(SL)의 일종으로 주로 두 Categories로 나뉘는 데이터의 집합이 주어졌을 때, 어떤 category에 속할지 판단하는 알고리즘이다. SVM은 선형분류는 물론 Kernel Trick을 사용하여 비선형 분류에도 사용가능하다. SVM은 데이터를 분류하는 기준이 되는 Hyper plane을 선택하는데 두 클래스 사이에 가장 큰 분류 마진을 갖는 Hyper Plane을 선핵하는 방법이 사용된다. 이 때 Support Vector는 Hyper plane에 가장 가까운 데이터로 정의된다. 







SVM은 데이터를 두개의 클래스로 분류하는 문제에 주로 사용되지만, 임의 실수값을 예측할 있는 SVR로 확장될 수 있다.







강화학습(Reinforcement Learning, RL) 알고리즘은 기계학습의 일종으로, 지도학습(Supervised Learning, SL)과 달리 입력에 대한 출력이 쌍으로 주어지지 않아 하나의 에피스도내의 행동들이 올바른 행동인지 판단할 정의가 없어 각각의 행동에 대해 즉각적인 학습이 이루어 지지 않는다. 이 때문에 지도학습이 Offline Learning이라면  강화학습은 Online Learning에 초점을 맞춘다. 이 과정은 새로운 Policy를 학습하기 위해서 행동을 탐색하는 Exploration과 기존에 학습했던 Policy로 행동을 선택하는 Exploitation의 균형을 통해 이루어진다. 강화학습이란 정의된 환경(Environment)안에서 에이전트(Agent)가 현재의 상태(State)를 인식하여, 선택가능한 행동(Action)들 중 보상(Reward)을 최대화하는 행동 또는 행동 순서를 선택하는 방법인 정책(Policy)를 학습하는 방법이다. 강화학습 알고리즘을 통해 해결할 수 있는 문제는 제어, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 통계학, 유전 알고리즘 등 매우 포괄적이다. 최적화 알고리즘과 비슷한 목표를 가지고 연구되나, 최적화 알고리즘에서는 최적해의 존재와 특성에 초점을 맞추지만, 강화학습 알고리즘의 경우 학습과 근사의 측면에서 문제를 접근한다. 
 
강화학습 알고리즘은 Markov Decision Process(MDP)형태로 환경이 주어진다. MDP현태로 주어진 문제는 Dynamic Programming(DP) 알고리즘으로 해결이 가능하다. DP에서는 환경에 대한 정보를 모두 알고 있어 보상을 최대화하는 방법을 Deterministic하게 결정할 수 있다. 반면 RL에서는 환경에 대한 정보를 모두 알 수 없는 상황에서 보상을 최대화하는 정책을 Deterministic하게 결정할 수 없는 경우 주로 사용된다. 

알파고의 경우 DQN(Deep Q Network)을 기초로 하여 RL알고리즘에 딥러닝 방법을 접목시킨 강화학습알고리즘을 사용하였다. 하지만 DQN알고리즘은 불연속적인 저차원 액션공간(Low Dimensional Action Space)에서만 다룰 수 있는 한계점이 있다. 대부분 제어 문제들에서는 High Dimensional Action Space를 다루어야 한다. 연속공간을 임의로 Discretize하게 되면 Curse of Dimensionality에 빠질 수 있다. 이를 해결하기 위해 고안된 Deep Deterministic Policy Gradient(DDPG) 알고리즘은 연속적인 High dimensional action space에 사용할 수 있다. DDPG는 기본적으로 Deterministic Policy Gradient(DPG) 알고리즘에 기초한다. DQN에서 사용된 아이디어인 Replay Buffer와 Target Q network을 사용한다. 







[관련글 보기]


2018/11/23 - RA vs RL

2018/11/23 - GAN(Generative Adversarial Network) 완전 정복하기

2018/11/23 - DCGAN

2018/11/23 - 파이썬 데이터 분석 3종 세트 - statsmodels, scikit-learn, theano

2018/11/23 - 주피터: 파이썬 노트북, 그리고 파이썬 노트북을 넘어서


Posted by 사용자 고경철(kckoh)

댓글을 달아 주세요











[관련글 보기]


Posted by 사용자 고경철(kckoh)

댓글을 달아 주세요

2018.11.23 14:11

DCGAN 인공지능로봇/머신러닝강좌2018.11.23 14:11

지적 대화를 위한 깊고 넓은 딥러닝 (Feat. TensorFlow) - PyCon APAC 2016


강사: 김태훈
Generative Model, Unsupervised Learning, tesnorflow, CNN구조, Deconvolution NN의 구조, 적대적 학습기법 등
슬라이드:  https://www.slideshare.net/carpedm20/...
동영상: https://www.youtube.com/watch?v=soJ-wDOSCf4
 
평점: ★★★★★





[관련글 보기]

2018/11/23 - [인공지능로봇/머신러닝강좌] - 파이썬 데이터 분석 3종 세트 - statsmodels, scikit-learn, theano

2018/11/23 - [인공지능로봇/머신러닝강좌] - 주피터: 파이썬 노트북, 그리고 파이썬 노트북을 넘어서


Posted by 사용자 고경철(kckoh)

댓글을 달아 주세요

김도형: 파이썬 데이터 분석 3종 세트 - statsmodels, scikit-learn, theano - PyCon APAC 2016





감상후기: ARMA모델, 칼만필터, 시계열과 회귀분석, 증권패턴, 데이터분석, 예측 등에 대한 전반적인 방법론, Python코드들, 텐서플로우는 소잡는무기 등 


평점: ★★☆


Posted by 사용자 고경철(kckoh)

댓글을 달아 주세요

김대권
슬라이드: https://speakerdeck.com/nacyot/jupiteo-paisseon-falseteubug-paisseoneul-neomeo
동영상: https://www.youtube.com/watch?v=VbbXUKigVfs


후기: iPython이 왜 시작되었는지, 웹인터페스의 개념, 클라이언트와 서버, 커널과 멀티커널, REPL의 개념, Jupyter 등을 역사적으로 이해할 수 있는 동영상


평점: ★






Posted by 사용자 고경철(kckoh)

댓글을 달아 주세요

개인서비스용 로봇의 미래








 1. 지능형로봇의 출현 

  최근 일본 문부과학성 발표에 의하면 10년후에는 1가구 1로봇시대가 올 것이라고 한다. 이는 2005년 1월24일 실시한 대학교수, 민간기술자, 독립행정법인 연구자 등 일본 과학자 2600명을 대상으로 하여 30년 뒤 일본의 모습에 대한 설문조사를 근거로 한 것인데, 이 결과에 의하면, 2015년까지는 청소와 빨래 등 가사를 돕는 로봇이 집집마다 보급될 것이라고 한다. 문부과학성은 이같은 조사 결과를 응답자에게 보내 재차 의견을 수렴한 뒤 제3기 과학기술기본계획(2006∼2010년) 책정에 반영할 계획이라고 한다.

  이와 같이 요즘 들어 종종 지능형 로봇에 관한 이야기가 뉴스의 중심이 되고 있다. 사람처럼 걷고 말하는 인간형 로봇 휴머노이드, 아주 값싼 가격으로 선보이는 지능형 로봇청소기, 살아있는 애완견처럼 움직이면서, 인간을 즐겁게 해주는 애완로봇에 이르기까지 다양한 형태의 최신 로봇들이 소개되고 있다. 그리고 컴퓨터기술과 IT인프라의 발전에 따라, 이제 이러한 로봇들이 우리의 생활 속에서 없어서는 안 될 필수품이 될 날도 멀지 않은 것 같다. 본 글에서는 이러한 로봇의 현황, 그리고 어떠한 모습으로 우리의 미래가정을 바꿔줄 것인가를 알아 본다. 또한 로봇이 산업적으로 성공하기 위한 방법론 등을 정리해 본다.




2. 세계 각국의 현황

  세계 각국은 지능형로봇을 국가전략산업으로 육성하고 있으며, 특히 일본 아시모 등 로봇기술을 자국의 기술력을 과시하고 있다. 그러나 많은 미래학자가 예측하기를, 이제 로봇은 단순 기술과시가 아닌 산업으로 이어져, 20년내에 현재의 자동차산업을 능가할 것이라고 한다. 이렇게 다가올 지능형로봇 시대를 대비하여, 로봇선진국이라 할 수 있는 일본, 미국 그리고 지능형로봇을 차세대 성장동력산업으로 선정하여 집중육성하고 있는 우리나라에 이르기까지 지능형로봇에 대한 기술개발투자를 아끼지 않고 있다.





 3. 개인서비스용 로봇의 등장

 여러 가지 지능형로봇의 분류 중에서 인간의 생활범주에서 제반 서비스를 제공하는 인간공생형 대인 지원로봇을 개인서비스용 로봇이라고 한다. 이러한 개인 서비스용 로봇은 청소, 심부름, 경비, 조리 등과 같은 가사용 서비스, 간병, 장애자 보조, 재활훈련을 도와주는 생활지원 서비스, 오락, 애완, 게임, 건강도우미와 같은 여가지원 서비스, 가정교사로봇과 같은 교육서비스 등 다양한 형태의 서비스를 우리의 생활공간에서 제공하게 될 것이다. 특히 이러한 로봇들은 지능화, 시스템화 기술을 기반으로 하고 있어, 타 분야에 대한 기술적 파급효과가 크고, IT, BT기술과의 융합을 통해 신기술 분야의 산업화를 촉진하게 될 것으로 보인다. 더구나 출산율 감소 문제 및 고령사회에 대한 우려가 높아지는 요즘, 노동력을 대체하고, 국민복지향상의 대안으로 대두되고 있다. 





4. 미래의 가정모습

 이러한 개인서비스 로봇이 구체적으로 어떻게 우리에게 다가올 것인가를 그려본다. 가칭 로미(ROMI)라는 이름의 개인서비스용 로봇의 모습을 시나리오 기법으로 묘사해 보았다. 개인서비스용 로봇 로미는 아침 8시가 되면 가장 먼저 등교한 수진이의 방부터 청소를 시작한다. 방안에는 옷가지와 여러 가지 물건이 흐트러져 있다. 청소를 시작하기 전, 방바닥을 카메라로 스캔하여 바닥상태를 점검한다. 방바닥의 물건을 하나하나 수거하여 정해진 위치에 놓는다. 바닥이 정돈되면, 진공청소기능을 작동하여 바닥의 먼지를 제거한다. 간단히 청소를 마친 로미는 곧바로 화장실로 가서 세탁물을 수집한다. 수집한 세탁물을 세탁기에 넣고 세탁기를 작동하여, 빨래를 시작한다. 세탁이 완료되면, 로미는 건조된 세탁물을 꺼내어, 정리정돈을 한 후, 정해진 옷장이나 서랍에 보관한다.  청소와 빨래를 마치고, 가족 모두가 외출한 오후 집안에 홀로 남은 로미는 집안을 감시하고 외부인의 방문에 응답하는 경비기능을 담당한다. 이러한 가사로봇 로미는 아직 완전한 인간의 모습이 아닌 반기계 반인간의 모습이 될 것이다. 즉 바퀴를 이용하여 이동하고, 양팔은 갖추고 있어, 간단한 옷가지나 물건을 잡을 수 있을 것이다. 홈네트워크와 연동하여 세탁기나 TV를 제어하고, 카메라를 갖추고 있어, 물건을 인식하는 기능을 갖추게 될 것이다. 집안식구들의 간단한 명령이나 대화를 이해할 수 있어, 간단한 명령은 말로 할 수 있을 것이다. 그러나 전체 작업스케쥴은 컴퓨터를 사용하여 작성된다.


이러한 로봇은 단순 이동기능을 갖춘 것이 아니라, 팔을 제어하고, 카메라를 장치하고 있으며, 홈네트워크와 연동하는 기능을 갖추려면, 최소한 천만원대의 설치비용이 들 것으로 예상되며, 로봇을 위한 홈네트워크 구축 및 센서설치 비용까지 포함하면, 총 비용은 대략 지금의 가치로 2천만원까지 올라갈 것이다. 이 비용으로 주부가 청소와 빨래로부터 해방될 수 있다면 가사용 로봇은 살만한 가치가 있지 않을까?




 5. 개인서비스용 로봇이 산업으로 성공하려면

그러나 이러한 막연한 미래모습이 현실로 다가오려면, 먼저 로봇기술이 단순 기술로만 그치는 것이 아니라 산업으로 자리 잡아야 한다. 이를 위해 먼저 원초적인 질문부터 던져 본다. 정말 개인서비스용 로봇이 고가의 비용을 지불할 만큼 필수적인 가전제품이 될 수 있을 것인가?  사실 이 부분에 대해서 자신있게 긍정적인 대답을 해줄 수 있는 사람은 별로 많지 않을 것이다. 최근 가정용 로봇 업체들이 내놓은 로봇제품은 아직 소비자의 기대수준과는 많은 괴리가 있기 때문이다. 현재 잘 팔리고 있다는 30만원대의 청소로봇은 로봇이기 보다는 정해진 패턴대로 무작위로 움직이며 청소를 하는  '로봇 청소기'수준이며, 최근 어느 업체가 내놓은 교육용로봇 역시 움직이며 돌아다니는 기능을 제외하고는 일반 PC컴퓨터가 제공하는 인터넷이나 CD매체를 이용한 컨텐츠의 음성, 동화상 정보제공 등과 차별화되지 못하기 때문이다. 즉 이러한 기능의 로봇이 소비자가 기대하는 개인서비스용 로봇의 진정한 이미지라고 보기 힘들다. 이러한 로봇이 소비자들에게 제공해 줄 수 있는 「가치」를 명확하게 제안하지 못하는 한, 개인서비스용 로봇이 거대시장을 형성할 것이라는 기대는 아직 막연해 보인다. 이러한 불확실성이 대기업의 투자마인드에 걸림돌이 되고 있으며, 미래의 소비자들 역시 PC와 차별화되지 못한 개인서비스용 로봇을 위해 수백, 수천만원의 돈을 선뜻 지불할 것처럼 보이지 않는 것이다.  




6. 킬러앱(Killer Application)의 발굴

  어쩌면 가정에서 물리적 서비스의 대상은 오직 혼자 힘으로 거동이 불편한 노약자이나 집안에서 생활하는 환자일지 모른다. 또는 혼자 사는 독거노인에게 말동무가 되어준다든가, 컴퓨터보다는 보다 인간친화적 모습으로 정보를 제공하는 서비스 등도 가능하다. 즉 대상과 대상이 필요로하는 서비스를 먼저 선정하고, 이를 중심으로 컨텐츠화하는 제품의 기능 설정이 필요하다. 그리고 이 서비스를 위해, 모든 기술적 방법을 구현하는 것은 다음 문제다. 중요한 것은 사회적 변화예측->소비자계층 분석->니즈 발굴->니즈에 부응하는 서비스/컨텐츠 개발->서비스를 실현하기위한  기술/환경구축의 순으로 기획되어야 한다. 

  즉 개인서비스용 로봇 역시 다른 분야의 제품개발이 그러하듯이 공급자 중심보다는 수요자 입장에서 필요하고, 원하는 서비스를 제공할 수 있도록 개발되어야 한다. 그리고 기존의 PC나 홈네트워크로 구현할 수 있는 서비스와 차별화되어야 한다. 로봇의 차별성은 분명 이동성과 조작성 그리고 인간친화성이다. 이러한 기능이 줄 수 있는 서비스를 최대한 발굴하고, 이러한 서비스를 필요로 하는 소비자계층을 분명한 대상으로 하는 것이 기술적 성공과 더불어 사업적으로도  성공할 수 있을 것이다. 결론적으로 가정용로봇 수요를 촉발시킬 수 있는 킬러 애플리케이션 즉 서비스/컨텐츠 기술을 개발하는 것이 우리 모두 풀어야 할 숙제이다.   

참고: Killer Application이란?

킬러앱(Killer Application)이란 ‘제품의 본래 개발 목적을 뛰어넘어 사회를 변화시킬 만큼 막대한 영향력을 미치는 상품이나 발명’을 지칭함




○ 노스웨스턴대 래리 다운스 교수는 금속활자, 도르래, 증기기관, 백열전구, 엘리베이터, 원자탄 등 응용제품을 킬러 어플리케이션(killer application)‘ 이라 최초로 명명
○ 현재, 생활방식이나 사고방식을 획기적으로 변화시키고 있는 킬러앱으로는 ‘인터넷, 이동통신’, 그리고 제조, 유통 등 기존시장을 재편하는 ‘전자상거래’ 등을 들 수 있음 





2005.10.18



Posted by 사용자 고경철(kckoh)

댓글을 달아 주세요

Abstract
Function Approximation은 RL에 필수적이다. 그러나 가치함수를 근사화하고 그것으로 부터 정책을 결정하는 기존의 방법은 이론적으로 다루기 힘든 것으로 증명된 바 있다. 본 논문에서는 다른 접근방법을 대안으로 제시한다. 여기에서는 정책이 function approximator로 표현된다.  그리고 그 function approximator는 policy변수에 대한 expected reward의 gradient에 따라 update된다. 








Environment의 Daynamics는 다음으로 주어지는  State transition probabilities와 









다음식으로 표현되는 expected reward에 의해 characterized된다. 







그리고 각 시간 t에서의  에이전트의 Decision making Procedure는 다음과 같이 주어지는 policy함수로 characterized 된다.









 여기서 policy함수는 미분가능(differntiable)한 것으로 가정한다. 에이전트의 objective를 formulating하는 두가지 방법이 있는데, 그 중 하나가 average reward formulation이다. 이 방법에서는 policies들이 각 step당 long-term expected reward에 따라 rank된다. 









여기서 







는 states의 stationary distribution이다. 이러한 average reward formulation 방법에서는 state-action pair의 value는 다음과 같이 정의된다. 








두번째 formulation으로 designated start state s0가 있고, 그로부터 얻어지는 long-term reward 만을 고려하는 방법이다. 







이 formulation방법에서는 value는 다음과 같이 정의된다. 







여기서




은 discount rate이다.  이 방법에서 states의 stationary distribution은 s0에서 시작하면서 겪게되는 각 stated들의 discounted weighting으로 다음과 같이 정의된다. 








1713-policy-gradient-methods-for-reinforcement-learning-with-fun






Posted by 사용자 고경철(kckoh)

댓글을 달아 주세요