딥씨크(deep seek)와 Open AI가 사용한 nvidia GPU 성능비교와 알고리즘 최적화관계

OpenAI vs 딥시크 사용 GPU 성능 비교

이번시간에는 지금 가장 논쟁이 되고 있는 딥시크의 AI모델 R1에서 사용한 GPU와 오픈AI 모델 쳇지피티에서 사용한 GPU의 성능비교를 통해 사용한 GPU가 1개일 경우를 가정하여 성능을 비교하면 다음과 같습니다.

1. OpenAI 사용 GPU: NVIDIA H100 (추정)

H100은 OpenAI가 GPT-4 및 GPT-4o를 훈련하는 데 사용했을 가능성이 높은 GPU입니다.

아키텍처: Hopper
제조 공정: TSMC 4nm
FP32 연산 성능: 60 TFLOPS
BF16/FP16 연산 성능: 1,979 TFLOPS (Tensor 코어 사용 시)
INT8 성능: 3,958 TOPS
메모리 용량: 80GB HBM2e
메모리 대역폭: 3.35TB/s

AI 학습 및 추론에 최적화된 최고의 데이터센터용 GPU
OpenAI의 모델 훈련 및 실행에 사용될 가능성이 가장 높은 GPU로 여겨 집니다.

2. 딥시크 사용 GPU: NVIDIA H800

H800은 NVIDIA가 중국 시장을 위해 H100의 다운그레이드 버전으로 만든 모델입니다. 딥시크는 H800모델을 사용하여
R1을 개발하고 훈련 시켰다고 주장하고 있습니다.

아키텍처: Hopper
제조 공정: TSMC 4nm
FP32 연산 성능: 30 TFLOPS (H100의 50%)
BF16/FP16 연산 성능: 988 TFLOPS (Tensor 코어 사용 시) (H100의 50%)
INT8 성능: 1,976 TOPS (H100의 50%)
메모리 용량: 80GB HBM2e
메모리 대역폭: 1.9TB/s (H100의 57% 수준)

중국 내 AI 연구소 및 데이터센터용으로 설계됨
H100 대비 연산 성능 50% 수준, 메모리 대역폭 57% 수준

3. 성능 비교 (H100 vs H800, 1개 기준)

차이점

항목	NVIDIA H100	NVIDIA H800	차이점
FP32 연산 성능	60 TFLOPS	30 TFLOPS	H800이 50% 낮음
BF16/FP16 연산 성능	1,979 TFLOPS	988 TFLOPS	H800이 50% 낮음
INT8 연산 성능	3,958 TOPS	1,976 TOPS	H800이 50% 낮음
메모리 용량	80GB HBM2e	80GB HBM2e	동일
메모리 대역폭	3.35TB/s	1.9TB/s	H800이 57% 수준

위 내용을 보자면 H800은 H100 대비 연산 성능이 50%, 메모리 대역폭이 57% 수준으로 제한 됩니다.
딥시크가 OpenAI와 같은 성능을 내기 위해서는 최소 2배 이상의 GPU가 필요할 가능성이 큽니다.
그러나 딥시크는 H800 2000개만 사용했다고 주장하므로 OpenAI대비 GPU 수가 5 ~ 10배 적다고 볼 수 있습니다.
이를 극복하기 위해서는 정말 혁신적인 알고리즘을 개발 했다면 가능 할 수도 있는겠지만 현재로서는 검증되지 않고 있습니다. 하드웨어적 성능으로만 따졌을 경우 gpt-4.0 수준의 AI를 만들었다는 주장은 같은 수량의 GPU를 사용했다고 가정할 경우에도 사실상 매우 의심스러운 점이 있습니다.

4. 하드웨어적 불리함을 알고리즘 최적화로 극복할 수 있는가?

사실상 완전한 극복은 거의 불가능하다고 보는 것이 타당할 것이라고 생각합니다. 알고리즘 최적화 기술에 대해 미국이 중국에 엄청나게 뒤떨어져 있다면 가능할 수도 있지만 객관적으로 중국이 미국을 능가하는 알고리즘 최적화 기술을 단기간에 완성했다는 객관적 근거가 부족합니다. 또한 하드웨어적 불리함을 알고리즘 최적화로 극복 가능한 부분도 제한적인 것이 사실입니다. 딥시크의 주장이 완전 거짓이라고 단정할 수는 없지만 이를 달성 했다고 하더라도 아래와 같은 내용을 참고하면 쉽지않은 부분이라고 생각됩니다.

1.알고리즘 최적화로 극복가능한 부분

① 혼합 전문가 모델(MoE, Mixture of Experts) 활용

GPT-4와 GPT-4o는 MoE 모델인지 확실하지 않음.
만약 딥시크가 MoE 모델을 도입했다면, 같은 연산량으로 더 높은 성능을 낼 가능성은 있음.
하지만 MoE만으로 5~10배의 연산량 차이를 극복하는 것은 불가능.

② 압축 및 경량화 기술 (Quantization, Pruning)

AI 모델을 훈련할 때 정확도를 유지하면서 모델 크기를 줄이는 기술이 있음.
하지만 GPT-4o 같은 대형 모델은 이미 상당한 최적화가 적용되어 있어서, 이 방식만으로 GPT-4o를 뛰어넘기는 어려움.

③ 새로운 학습 방법 (GRPO, Flash Attention, )

딥시크가 공개한 논문이 없어서 어떤 방법을 사용했는지 확실하지 않음.
일부 논문에서는 효율적인 학습 방법을 도입하면 연산량을 20~30% 줄일 수 있다고 보고됨.
하지만 2~3배 이상의 최적화는 현재 기술 수준에서는 거의 불가능.

2.알고리즘 최적화로 극복 불가능한 부분

다음과 같은 부분은 알고리즘 최적화로 하드웨어적 성능을 해결하기 어려운 부분입니다.

① 연산량 부족은 물리적으로 해결 불가능

딥러닝 모델은 대규모 행렬 연산을 수행해야 하며, 이를 위한 **물리적인 연산량(GPU FLOPS)**이 필요함.
딥시크가 사용한 H800 GPU는 OpenAI의 H100 대비 50% 성능밖에 되지 않음.
수만 개의 H100을 사용한 OpenAI와 비교하면, 하드웨어 성능이 절대적으로 부족.

② 대형 언어 모델(LLM)은 데이터 양이 성능을 결정함

최신 LLM은 인터넷 전체 데이터를 학습하며, 이를 위해 방대한 컴퓨팅 리소스가 필요함.
딥시크가 OpenAI보다 훨씬 적은 GPU로 같은 수준의 학습을 했다고 주장하는 것은 신뢰하기 어려움.

③ 메모리 대역폭 문제는 알고리즘으로 해결 불가능

딥러닝 모델은 훈련할 때 초고속 메모리(HBM)의 대역폭이 필수적.
H800은 H100 대비 메모리 대역폭이 57% 수준이라, 데이터 로딩 속도가 느림.
메모리 병목 현상은 하드웨어적 한계이며, 알고리즘으로 극복하기 어려움.

5. 딥시크의 주장이 사실이라면 결국 OpenAI도 같은 적용이 가능함

만약 딥시크의 주장데로 혁신적인 알고리즘 최적화 기술을 개발하고 도입해서 하드웨어적 성능을 극복했다면 다른 AI기업도 같은 적용이 가능하다고 봅니다. 결국 세계 최고의 AI 연구진을 보유한 OpenAI, Google, DeepMind등 의 기업들이 같은 논리데로 적용이 충분히 가능할 것입니다. 이와 더불어 더욱 더 높은 성능의 하드웨어에 적용한다면 더욱 뛰어난 AI개발은 가능하며 이는 더 높은 물리적 성능이 뒷바침 되기 때문에 더욱 높은 성능을 발휘 할 것입니다.

6. 지금까지 알아본바에 의하면

가장 합리적인 결론은 알고리즘 최적화로 극복할 수 있는 한계를 뛰어넘은 결론을 도출한 것이 됩니다.
이는 일정부분 최적화를 통해 연산량을 줄일 수 있다는 것은 인정됩니다. 그러나 그러한 방법으로도 5 ~ 10배의 하드웨어적 차이를 극복하는 것은 사실상 불가능에 가깝습니다. 앞으로 더욱 많은 검증이 필요하겠지만 더욱 신뢰도 높은 증거를 바탕으로 이번 사태를 바라보아야 하는 것이 타당하다고 생각됩니다.

저작자표시 비영리 변경금지 (새창열림)

'바로응용상식과지식' 카테고리의 다른 글

태양의 빛이 지구에 도달하는 시간: 과학적 원리와 공식 (0)	2025.02.06
인간의 두뇌와 컴퓨터의 성능 비교 (3)	2025.02.05
우리나라 성비,인구성장률,인구구조,부양비 등 통계자료의 활용 2025년 인구지표 다운로드 (0)	2025.01.25
2025년 조달청 입찰내역작성프로그램V8 다운로드 방법 (2)	2025.01.25
컴퓨터 프로그래밍 언어 종류와 특징 그리고 간단한 역사 (2)	2025.01.15