FP8 표준 형식

FP8은 계산 효율성을 개선하고 메모리 사용량을 줄이며 상호 연결 대역폭을 최적화하여 인공지능(AI) 학습 및 추론을 최적화하기 위해 개발된 8비트 부동소수점 사양이다. 이는 32비트에서 16비트로, 그리고 이제는 더욱 효율적인 8비트 정밀 포맷으로 전환하는 업계 전반의 변화의 일환이며, 특히 AI의 중요한 혁신인 트랜스포머 네트워크에 유용하다.

2022년 NVIDIA, Arm, Intel은 공동으로 FP8 백서를 작성하여 AI 개발을 가속화하기 위한 공통 포맷으로 제안했다. FP8 형식에는 다양한 계산 요구 사항을 충족하기 위해 정밀도와 수치 범위의 균형을 맞추도록 설계된 두 가지 변형인 E5M2와 E4M3가 있다.

FP8 데이터 형식은 NVIDIA의 Hopper 아키텍처에서 기본적으로 구현되어 AI 훈련 및 추론을 크게 향상시킨다.

예를 들어, Hopper 아키텍처의 H100 GPU는 두 가지 새로운 FP8 입력 유형을 지원하는 FP8 텐서 코어를 도입했다: 4 지수 비트, 3 맨티사 비트, 1 부호 비트로 구성된 E4M3는 더 적은 동적 범위와 더 높은 정밀도가 필요한 계산을 위해 설계되었으며, 5 지수 비트, 2 맨티사 비트, 1 부호 비트로 구성된 E5M2는 더 넓은 동적 범위와 더 낮은 정밀도를 제공한다.

이러한 발전으로 데이터 스토리지 요구 사항이 절반으로 줄어들고 처리량은 FP16 또는 BF16과 같은 이전 16비트 포맷에 비해 두 배로 증가하여 AI 애플리케이션의 처리 효율성이 크게 향상되었다.

FP8로의 진화는 다양한 하드웨어 플랫폼에서 정확성을 유지하는 상호 교환 가능한 포맷을 채택하여 하드웨어와 소프트웨어 플랫폼의 상호 운용성과 AI 기능의 빠른 발전을 촉진한다는 업계의 광범위한 목표에 부합하는 것이다.