달력

4

« 2024/4 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30

'인공지능로봇'에 해당되는 글 12

  1. 2018.11.13 Learning to grasp - Jacob Varley
  2. 2018.11.13 RGBD Object labeling using CNN 1
  3. 2018.11.13 Real-Time Grasp Detection Using Convolutional Neural Networks
  4. 2018.11.13 Use case
2018. 11. 13. 10:40

Learning to grasp - Jacob Varley 인공지능로봇/인공지능2018. 11. 13. 10:40

Submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy in the Graduate School of Arts and Sciences - Columbia University, 2018


Abstract
Providing robots with the ability to grasp objects has, despite of research, remained a challenging problem. The problem is approachable in constrained environments where there is ample prior knowledge of the scene and objects that will be manipulated. The challenge is in building systems that scale beyond specific situational instances and gracefully operate in novel condition. In the past, heuristic and simple rule based strategies were used to accomplish tasks such as scene segmentation or reasoning about  occlusion. These heuristic strategies work in constrained environments where a roboticist can make simplifying assumptions about everything from the geometries of the objects to be interacted with, level of clutter, camera position, lighting, and a myriad of other relevant variables. With these assumptions in place, it becomes tractable for a roboticist to hardcode desired behavior and build a robotic system capable of completing repetitive tasks. These hardcoded behavior will quickly fail if the assumptions about the environment are invalidated. In this thesis, we will demonstrate how a robust grasping system can be built that is capable of operating under a more variable set of conditions without requiring significant engineering of behavior by a roboticist. 



 This robustness is enabled by a new found ability to empower novel machine learning techniques with massive amounts of synthetic training data. The ability of simulators to create realistic sensory data enables the generation of massive corpora of labeled training data for various grasping related tasks. The use of simulation allows for the creation of a wide variety of environments and experiences exposing the robotic system to a large number of scenarios before ever operating in the real world. This thesis demonstrates that it is now possible to build systems that work in the real world trained using deep learning on synthetic data. The sheer volume of data that can be produced via simulation enables the use of powerful deep learning techniques whose performance scales with the amount of data available. This thesis will explore how deep learning and other techniques can be used to encode these massive datasets for efficient runtime use. The ability to train and test of synthetic data allows for quick iterative development of new perception, planning and grasp execution algorithms that work in a large number of environments. Creative applications of machine learning and massive synthetic datasets are allowing robotic systems to learn skills, and move beyond repetitive hardcoded tasks. 



일단 이논문은 파지작업과 CNN을 결합한 것으로 보인다. RL기반은 아닌 것이다. 특이한 것은 에너지 최적화를 주제삼은 것이다. 잡는냐 못잡는냐보다 접촉에너지를 최소화하는게 왜 중요한 문제인지 이해가 안간다. Heatmap이 신경망의 최종출력인데, 손바닥의 터치 등고선을 고려한 것일까. 키워드는 포인트 클라우드, RGBD 키넥트센서, 

일단 우리의 작업을 위해 일단 물체를 환경으로 부터 분리하는 Semantic map을 구성하는 능력이 필요하다. 이는 RGB영상처리에서 RGBD영상처리에 대한 연구가 필요한 것이다. 

:
Posted by 고경철(kckoh)

U. Asif, M. Bennamoun, and F. Sohel, “A Multi-modal, discriminative and spatially invariant CNN for RGB-D object labeling,” IEEE Transactions on Pattern Analysis and Machine Intelligence

Abstract

While deep convolutional neural networks have shown a remarkable success in image classification, the problems of inter-class similarities, intra-class variances, the effective combination of multimodal data, and the spatial variability in images of objects remain to be major challenges. To address these problems, this paper proposes a novel framework to learn a discriminative and spatially invariant classification model for object and indoor scene recognition using multimodal RGB-D imagery. This is achieved through three postulates: 1) spatial invariance - this is achieved by combining a spatial transformer network with a deep convolutional neural network to learn features which are invariant to spatial translations, rotations, and scale changes, 2) high discriminative capability - this is achieved by introducing Fisher encoding within the CNN architecture to learn features which have small inter-class similarities and large intra-class compactness, and 3) multimodal hierarchical fusion - this is achieved through the regularization of semantic segmentation to a multi-modal CNN architecture, where class probabilities are estimated at different hierarchical levels (i.e., imageand pixel-levels), and fused into a Conditional Random Field (CRF)- based inference hypothesis, the optimization of which produces consistent class labels in RGB-D images. Extensive experimental evaluations on RGB-D object and scene datasets, and live video streams (acquired from Kinect) show that our framework produces superior object and scene classification results compared to the state-of-the-art methods.

일단 CNN과 RL을 떠나, Grasping Object를 위해 일단 필요한 것은 3D object에 대한 perception이다. robotics에서 가장 중요한 것은 일단 실제 환경을 보고 인식하는 거이므로 일단 2D이미지가 아닌 3D이미지 인것이다. 즉 RGB-D와 같은 3차원 이미지 정보를 인식하여 물체를 인식하는 문제이다. 2번째는 단순히 물체의 분류뿐아니라 3차원 위치, 방향정보를 인식해 내는 것이다. 이 문제만으로도 아직 많은 연구가 진행중인 것을 알 수 있다. 이 논문만 해도 공간불변(이동, 회전. 스케일 등) 신경망을 별도 기존의 CNN과 결합시켜 조합적으로 사용했다고 기술하고, 멀티모달 계층적 퓨전을 위해 멀티모달 CNN구조를 제안하고 있다. 또한 fisher encoding이란 기법을 적용하여, 분류유사성을 다루고 있다. 실제로 라이브 비디오를 통해, 기존의 방법보다 뛰어난 결과를 보여주고 있다. 

이뿐 아니다.저자의 최근 연구 비디오를 보면, Graspnet을 보여주고 있다. 


GraspNet: An Efficient Convolutional Neural Network for Real-time Grasp Detection for Low-powered Devices Umar Asif, Jianbin Tang, and Stefan Harrer, IBM Research Australia, IJCAI - 2018

좀 더 논문을 살펴보면, RGBD이미지를 위해 멀티모달을 위한 CNN구조를 보면 RGB를 위한 CNN들과 depth모달리티를 위한 CNN이 분리되어 학습되고, 두번째 FCN으로 연결되는 구조를 보인다. 

[PDF]Discriminative Multi-Modal Feature Fusion for RGBD Indoor Scene .




'인공지능로봇 > 로봇손지능' 카테고리의 다른 글

Real-Time Grasp Detection Using Convolutional Neural Networks  (0) 2018.11.13
Use case  (0) 2018.11.13
:
Posted by 고경철(kckoh)

이 논문은 무려 99회의 인용횟수를 기록한 CNN을 이용한 실시간 파지에 관한 유명한 논문이다. 

[PDF]Real-Time Grasp Detection Using Convolutional Neural Networks

https://research.google.com/pubs/archive/43875.pdf

J Redmon 저술 - ‎99회 인용 - ‎관련 학술자료Real-Time Grasp Detection Using Convolutional Neural Networks ... We evaluate on the Cornell Grasp Detection Dataset, an .... single, efficientpipeline.

Joseph Redmon1 , Anelia Angelova2
1University of Washington 2Google Research

!. 서론
센서를 이용하여 환경을 이해(인식)한다는 것은 지극히 어려운 일이다. 우리가 환경을 이해할 때는 일단 주어진 영상을 세그먼트로 나누고, 각각의 세그먼트를 구별하여 인식한다. 그러나 물체가 겹쳐지기도 하고, 형태가 비슷한 물체간의 모호성으로 인해, 시각인식 문제는 로봇시스템에 있어 아직도 난제로 남아 있다. 인간은 물체를 보면(novel objects) 직관에 의해 그 물체가 무엇인지 인식한다. 인식할 뿐아니라 그 물체를 핸들링하는 방법까지도 알아 낸다. 즉 어떻게 집을 것인지 어떻게 놓을 것인지 등을 알아 낸다. 그러나 기계가 이일을 해내기 위해서는 아직 인간과 커다란 갭을 이겨내야 한다. 이것이 기계지능을 연구하는 연구자들의 몫이다. 파지인식을 연구하는 사람들은 물체를 보고 어떻게 잘 집을 수 있는지 하는 문제를 연구한다. 
 일단 데이터셋으로는 이 분야에서 코넬 파지 감지 데이터셋(Cornell Grasp detection Dataset)이 있다. 그림은 이를 보여준다. 

최근의 연구[1],[2]로는 13.5초만에 75%의 정확도를 가지고 돌아 가고 있다. 즉 이미지를 보여주면 13.5초만에 그리퍼를 어떻게 움직여야 하는지 알려주는 것이다. 이전의 연구 슬라이딩 윈도우를 사용하기 때문에 많은 시간이 소요된다. 이 경우 Single network을 사용하여 시간을 많이 줄였다. 초당 13 frmes을 처리할 수 있으며, 정확도는 88%에 달한다. 

2. 관련연구
일단 물체의 3차원 모델이 주어진 경우, 좋은 파지 위치를 알아내는 연구는 많이 있어왔다. [3]-[7]. 이러한 연구는 물체에 3차원 정보가 완벽할 때 유효하다. 그러나 물체에 대한 완전한 정보가 얻기 힘든 경우가 실제 상황에서 많이 발생한다. 떠라서 물체에 대한 완벽한 정보가 주어지지 않은 경우에 대해서서도 물체를 잘 잡을 수 있는 일반적인 접근 방법이 필요한 것이다. 로봇시스템은 물체 인식[8]이나, 감지[9][10], 매핑[11][12]등의 문제에서 일반적으로 RGB-D센서를 사용한다. 키넥트와 같은 RGB-D센서는 로봇이 3차원 환경과 반응하며 작동하기에 매우 훌륭한 깊이정보를 제공한다. 파지감지에 대한 최근 연구는 RGB-D데이터로부터 파지위치를 찾는 문제에 촛점을 맞춘다.[13] . Lenz등은  파지감지를 위한 컨벌루션 신경망을 성공적으로 사용하였다. 이 신경망은 슬라이딩 윈도우 감지 파이프라인에서 분류기로 작동한다.  

3. Problem description

일단 물체영상이 얻어지면, 그 물체를 안전하게 집어 들기 위한 적당한 방법을 찾아야 한다. 이를 위해 5차원의 정보가 필요하다. 그림과 같이 직각 사각형의 중심 위치에 해당하는 2차원 정보와, 방향, 그리고 높이와 폭이다. 

4. Grasp Detection with Neural networks

 Krizhevsky에 의해 제안된 AlexNet을 사용한다.[15]


5. Experiments and Evaluation
코넬 파지 데이터셋[19]은 240종의 물체 885개의 이미지를 담고 있다. 그리고 그라운드트러스 파지 레이블을 갖고 있다. 

- rectangle metric accuracy

6. 결과
- direct regression model


7. Discussion
- Image dataset에서 미리 학습된 효과가 미치는 영향
- RGB정보에서 B대신 Depth정보를 사용하는 효과 

8. 결론
Grasping detection과 object classification이 정확도를 유지하면서 결합될 수 있음을 보여줌. 

참고문헌
[1] I. Lenz, H. Lee, and A. Saxena, “Deep learning for detecting robotic grasps,” in Proceedings of Robotics: Science and Systems, Berlin, Germany, June 2013.
[2] Y. Jiang, S. Moseson, and A. Saxena, “Efficient grasping from rgbd images: Learning using a new rectangle representation,” in IEEE International Conference on Robotics & Automation (ICRA). IEEE, 2011, pp. 3304–3311. 
[3] A. Bicchi and V. Kumar, “Robotic grasping and contact: A review,” in IEEE International Conference on Robotics & Automation (ICRA). Citeseer, 2000, pp. 348–353. 
[4] A. T. Miller, S. Knoop, H. I. Christensen, and P. K. Allen, “Automatic grasp planning using shape primitives,” in IEEE International Conference on Robotics & Automation (ICRA), vol. 2. IEEE, 2003, pp. 1824–1829. 
[5] A. T. Miller and P. K. Allen, “Graspit! a versatile simulator for robotic grasping,” Robotics & Automation Magazine, IEEE, vol. 11, no. 4, pp. 110–122, 2004.
[6] R. Pelossof, A. Miller, P. Allen, and T. Jebara, “An svm learning approach to robotic grasping,” in IEEE International Conference on Robotics & Automation (ICRA), vol. 4. IEEE, 2004, pp. 3512–3518. 
[7] B. Leon, S. Ulbrich, R. Diankov, G. Puche, M. Przybylski, A. Morales, ´ T. Asfour, S. Moisio, J. Bohg, J. Kuffner, et al., “Opengrasp: a toolkit for robot grasping simulation,” in Simulation, Modeling, and Programming for Autonomous Robots. Springer, 2010, pp. 109–120.
[8] K. Lai, L. Bo, X. Ren, and D. Fox, “A large-scale hierarchical multi-view rgb-d object dataset,” in IEEE International Conference on Robotics & Automation (ICRA). IEEE, 2011, pp. 1817–1824.
[9] ——, “Detection-based object labeling in 3d scenes,” in IEEE International Conference on Robotics & Automation (ICRA). IEEE, 2012, pp. 1330–1337.
[10] M. Blum, J. T. Springenberg, J. Wulfing, and M. Riedmiller, “A learned feature descriptor for object recognition in rgb-d data,” in IEEE International Conference on Robotics & Automation (ICRA). IEEE, 2012, pp. 1298–1303.
[11] P. Henry, M. Krainin, E. Herbst, X. Ren, and D. Fox, “Rgb-d mapping: Using depth cameras for dense 3d modeling of indoor environments,” in In the 12th International Symposium on Experimental Robotics (ISER). Citeseer, 2010.
[12] F. Endres, J. Hess, N. Engelhard, J. Sturm, D. Cremers, and W. Burgard, “An evaluation of the rgb-d slam system,” in IEEE International Conference on Robotics & Automation (ICRA). IEEE, 2012, pp. 1691–1696
[13] A. Saxena, J. Driemeyer, and A. Y. Ng, “Robotic grasping of novel 
objects using vision,” The International Journal of Robotics Research, 
vol. 27, no. 2, pp. 157–173, 2008.
[15]  A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification 
with deep convolutional neural networks,” in Advances in neural 
information processing systems, 2012, pp. 1097–1105.
[19] “Cornell grasping dataset,” http://pr.cs.cornell.edu/grasping/rect data/ 
data.php, accessed: 2013-09-01.


'인공지능로봇 > 로봇손지능' 카테고리의 다른 글

RGBD Object labeling using CNN  (1) 2018.11.13
Use case  (0) 2018.11.13
:
Posted by 고경철(kckoh)
2018. 11. 13. 10:26

Use case 인공지능로봇/로봇손지능2018. 11. 13. 10:26

유스케이스(Use case)
시스템 사이에서 교환되는 메세지의 중요도에 의해 클래스나 시스템에 제공되는 고유 기능 단위이며, 상호 행위자 밖의 하나 혹은 그 이상의 것이 시스템에 의해서 실행되는 행위를 함께 함


출처: https://terms.naver.com/entry.nhn?docId=2072258&cid=42345&categoryId=42345





use case: 각 행위자의 시스템에 대한 용도

scenario: 각 유스케이스에 대하여 시나리오를 작성한다. 시나리오는 사건의 흐름과 과정을 나타내며 시스템과 행위자들이 주고 받는 정보 뿐만 아니라 상호 작용이 발생하는 상황, 환경, 배경 등을 포함할 수 있다. 
유스케이스 기법은 사용자의 요구사항을 검증하는데 활용 된다. 시스템의 기능적인 요구를 결정하고 기술하여 시스템 개발자와 고객 사이의 합의를 도출할 수 있도록 돕는다.
사용자의 관점에서 시스템의 요구사항을 제공하며 시스템 의 범위를 나타내주어 일정과 예산을 추정하는데 도움을 준다.

유스케이스 다이어그램
- 포함 관계(include)
- 확장 관계(expansion)


유스케이스 시나리오에 대한 표준은 없으나 유스케이스 시나리 오에는 일반적으로 유스케이스 이름 및 개요, 유스케이스를 수행 하는 행위자, 선행 및 후행조건, 유스케이스의 이벤트 흐름이 포함된다. 시스템이 해당 유스케이스를 수행하기 위한 방법과 같은 구현 방 법에 대해서는 설명하지 않도록 한다.

문제설명서(Problem Statement)

http://nlp.chonbuk.ac.kr/SE/ref-usecase-UML.pdf


:
Posted by 고경철(kckoh)