지난 2년 동안 AI에 대한 거의 모든 논의는 GPU 부족, 컴퓨팅 용량 부족, 클러스터 크기 부족 등 컴퓨팅 성능에 초점을 맞췄습니다.컴퓨팅 성능을 더 많이 쌓으면 모든 문제가 해결될 것 같은 느낌이 듭니다.
그러나 이 보고서는 한 가지 중요한 점을 계속해서 강조합니다. AI를 실제로 느리게 만드는 것은 계산 능력이 아니라 데이터를 효율적으로 이동할 수 없다는 점입니다.
한 가지 통계는 문제를 명확하게 보여줍니다. DRAM에서 데이터를 읽으면 SRAM에서 데이터를 읽을 때보다 수백 배 더 많은 에너지를 소비합니다.한편, 프로세서와 메모리 간의 성능 격차는 매년 거의 50%씩 벌어지고 있습니다.
우리가 필사적으로 구축하고 있는 컴퓨팅 성능의 대부분은 단순히 데이터를 기다리는 것입니다. 그 순간 나는 놀라운 사실을 깨달았다. 우리는 AI의 잘못된 병목 현상을 계속해서 살펴봤을 수도 있습니다.
문제가 연산 자체가 아니라 연산과 메모리의 분리라면, 그렇다면 실제 대답은 더 강력한 GPU가 아닐 수도 있습니다. 허락하는 것이다 메모리 자체가 컴퓨팅에 참여. 이것이 바로 이 보고서가 말하고자 하는 실제 이야기입니다.
AI 컴퓨팅 성능의 실제 병목 현상은 계산에서 메모리로 이동하고 있으며, 해결책은 계산을 메모리로 옮기는 것입니다.
AI 계산은 대규모 MAC(곱셈 누산) 작업에 크게 의존하며 극도로 데이터 집약적입니다. 그러나 고전적인 폰 노이만 아키텍처에는 치명적인 결함이 있습니다.
결론: AI는 계산에 실패하지 않습니다. 데이터를 저렴하고 빠르게 이동하는 데 실패합니다.
컴퓨팅과 메모리의 분리로 인해 지속적인 데이터 셔틀이 발생하여 두 가지 중요한 문제가 발생합니다.
이것이 바로 보고서에서 말하는 것입니다. 폰 노이만 병목 현상.
분명한 업계 동향이 나타나고 있습니다. 칩은 두 가지 방식으로 진화하고 있습니다.
그 사이에 다음과 같은 혁명적인 방향이 나타났습니다. 인메모리 컴퓨팅(IMC).
핵심 아이디어: 논리 연산, 산술 계산, 행렬 곱셈(AI의 핵심)을 메모리 내에서 직접 수행합니다.
근본적인 변화: 메모리 = 스토리지 → 메모리 = 컴퓨팅 엔진
보고서에는 여러 구현 경로가 요약되어 있습니다.
1. SRAM / eDRAM(기존 경로)
캐시 내 컴퓨팅, 신경 캐시
장점: 성숙함, 빠른 속도
한계: 넓은 영역, 제한된 확장성
2. 신흥 메모리(주류 방향)
포함:
MRAM, PCM, ReRAM, FeRAM
공통 목표: 메모리 배열을 행렬 곱셈-누산 엔진으로 전환 내부 컴퓨팅 및 아날로그 컴퓨팅(예: 벡터 곱셈을 위한 현재 합산)을 사용합니다.
본질: 메모리 배열 = AI 가속기
그러나 실질적인 과제는 여전히 남아 있습니다. 정밀도 및 노이즈, 장치 변형, 무게 드리프트(특히 ReRAM의 경우) 및 유지 문제. 그 길은 실행 가능하지만 엔지니어링 분야에서는 매우 어렵습니다.
보고서는 하드웨어만으로는 충분하지 않으며 알고리즘도 발전해야 한다고 강조합니다.
주요 결론: AI 효율성 최적화를 위해서는 아키텍처, 디바이스, 알고리즘의 공동 설계가 필요합니다.
AI의 병목 현상은 "컴퓨팅 성능이 충분하지 않음"에서 "데이터를 충분히 빠르게 이동할 수 없음"으로 바뀌고 있습니다. 차세대 칩의 답은 더 강한 GPU가 아니라, 스스로 계산할 수 있는 메모리.