GPU 독주 흔든다…모레, 텐스토렌트 기반 LLM 추론 성능 ‘DGX급’ 입증 성공
(venturesquare.net)
AI 인프라 기업 '모레(More)'가 텐스토렌트(Tenstorrent) 기반 시스템에서 엔비디아 DGX A100을 상회하는 LLM 추론 성능을 입증했습니다. GPU와 NPU를 결합한 '이종 분산 서빙' 기술을 통해 고비용 HBM 의존도를 낮추고 인프라 비용 효율성을 극대화하는 새로운 대안을 제시했습니다.
이 글의 핵심 포인트
- 1텐스토렌트 '갤럭시 웜홀' 시스템에서 엔비디아 DGX A100급 이상의 LLM 추론 성능 달성
- 2GPT-OSS, Qwen, DeepSeek 등 최신 MoE(Mixture of Experts) 모델 기준 테스트 완료
- 3'이종 분산 서빙' 전략을 통해 텐스토렌트 칩을 prefill 전용 가속기로 활용, HBM 비용 절감
- 4모레의 'MoAI 프레임워크'는 NVIDIA, AMD, 텐스토렌트 등 다양한 칩셋을 단일 클러스터에서 통합 운영 가능
- 5특정 벤더에 종속되지 않는 유연한 AI 인프라 구축 및 실제 데이터센터 적용 가능성 확인
이 글에 대한 공공지능 분석
왜 중요한가
배경과 맥락
업계 영향
한국 시장 시사점
이 글에 대한 큐레이터 의견
AI 스타트업 창업자들에게 이번 소식은 '컴퓨팅 비용의 탈(脫) 엔비디아' 가능성을 보여주는 매우 고무적인 신호입니다. 지금까지 대부분의 AI 기업은 엔비디아 GPU의 높은 가격과 수급 불안정이라는 '컴퓨팅 장벽'에 가로막혀 있었습니다. 하지만 모레가 보여준 것처럼 GPU의 연산 능력과 NPU의 효율성을 결합한 '이종 분량 서빙'이 실무 수준(Production-grade)에서 가능하다면, 이는 곧 모델 서비스의 수익성(Margin)과 직결되는 문제입니다.
창업자들은 이제 단순히 '어떤 모델을 만드느냐'를 넘어, '어떤 인프라 아키텍처 위에서 모델을 서빙하느냐'를 핵심 경쟁력으로 고려해야 합니다. 특히 prefill(입력 처리)과 decoding(출력 생성) 단계를 분리하여 각각에 최적화된 칩을 배치하는 식의 전략적 인프라 설계는, 자본력이 부족한 스타트업이 거대 빅테크와 경쟁할 수 있는 중요한 '비용적 해자(Cost Moat)'가 될 것입니다. 향후 텐스토렌트나 AMD 기반의 에코시스템 확장을 예의주시하며, 자사 서비스에 적용 가능한 하이브리드 추론 프레임워크 도입을 검토해야 할 시점입니다.
관련 뉴스
댓글
아직 댓글이 없습니다. 첫 댓글을 남겨보세요.