AI기술의 임베디드 시스템화
세가지가 중요: Privacy, Latency, Cost
딥러닝 Model의 크기가 많이 증가하고 있다.
=> 작게 하자
임베디드 NN의 목적
경량 딥러닝 모델 개발
딥러닝 모델 가속: 최적화, 병렬화
딥러닝 모델 압축: 양자화, 프루닝
DNN and MAC operaion
Y_j = activation(sigma_{i=1}^{input layer의 크기} W_ij * X_i)
AI를 위한 컴퓨팅 시스템
Cloud AI -> Mobile AI -> Tiny AI (점점 경량화)
프로세서에서의 경량화/가속기술 지원:
경량화: FP32 => FP16 => Int8 (Floating Point가 높을수록 무겁고 성능이 좋음)
가속기술: dense => sparse (dense는 배열에 0이 적음, sparse는 0이 많음. 그러므로 sparse의 처리 속도가 더 빠르겠지)
임베디드 AI 하드웨어
퀄컴 헥사곤 DSP: 저전력, 고속 MAC 기반
애플 뉴럴 엔진: NN 가속기, MMA 기반 병렬처리형 GPU 포함
엔비디아 젯슨: MMA 기반 병렬처리형 GPU 다수 포함, 양자화, 프루닝, 최적화 지원
구글 TPU: 구글의 NN Processor. 알파고에 사용
FPGA기반 가속기: 가속회로 FPGA로 구현
MCU: 임베디드 프로세서. 연산 성능 매우 떨어짐. AI 가속 기능 없음
'학부 > 최신컴퓨터특강' 카테고리의 다른 글
[최컴특] 3. 컴퓨터 이론 (1) | 2024.04.23 |
---|---|
[최컴특] 2. 행동 유형과 에티켓 (2) | 2024.04.23 |