에이전트 구동의 핵심: Workers AI, Kimi K2.5를 시작으로 대규모 모델 구동

(blog.cloudflare.com)

Cloudflare Blog2026년 3월 19일AI 모델

에이전트 구동의 핵심: Workers AI, Kimi K2.5를 시작으로 대규모 모델 구동

Cloudflare가 Workers AI를 통해 Kimi K2.5와 같은 대규모 모델 지원을 시작하며, 에이전트 개발을 위한 통합 인프라를 구축합니다. 이를 통해 개발자는 상태 관리, 워크플로우, 대규모 추론을 단일 플랫폼에서 저비용으로 구현할 수 있게 됩니다.

이 글의 핵심 포인트

1Cloudflare Workers AI, Kimi K2.5 등 대규모 모델 지원 시작
2Kimi K2.5 모델의 256k 컨텍스트 윈도우 및 멀티턴 도구 호출 지원
3Cloudflare 내부 사례 기준, 기존 모델 대비 추론 비용 77% 절감 달성
4에이전트 생애주기(상태 관리, 워크플로우, 실행)를 단일 플랫폼으로 통합
5대규모 추론을 위한 커스텀 커널 및 분산 병렬화 기술 적용

이 글에 대한 공공지능 분석

왜 중요한가

에이전트 시대의 핵심 병목은 '추론 능력'과 '비용 효율성'입니다. Cloudflare는 단순한 모델 실행을 넘어, Durable Objects(상태 유지), Workflows(장기 작업), Dynamic Workers(실행 환경)를 결합하여 에이전트 운영의 복잡성과 비용 문제를 동시에 해결하려는 통합 인프라 전략을 제시하고 있습니다.

배경과 맥락

AI 에이전트가 24시간 자율적으로 작동하며 막대한 양의 토큰을 소비함에 따라, 기존의 고가 proprietary 모델(GPT-4 등)은 기업의 확장성을 저해하는 비용적 한계에 직면했습니다. 이에 따라 Kimi K2.5와 같이 성능은 뛰어나면서도 비용 효율적인 오픈소스 모델을 에지(Edge) 인프라에서 저렴하게 구동하려는 수요가 급증하고 있습니다.

업계 영향

AI 개발의 패러다임이 '모델 중심'에서 '인프라 중심'으로 이동하고 있습니다. 개발자들은 이제 모델을 선택하는 것을 넘어, 에이전트의 상태와 워크플로우를 관리할 수 있는 통합 플랫폼을 선택하게 될 것이며, 이는 에지 컴퓨팅 기반의 AI 추론 시장을 가속화할 것입니다.

한국 시장 시사점

글로벌 시장을 타겟으로 하는 한국의 AI SaaS 스타트업들에게는 매우 중요한 기회입니다. 고가의 API 비용 부담에서 벗어나, Cloudflare와 같은 에지 인프라를 활용해 고성능 에이전트 서비스를 저비용·저지연(Low-latency)으로 구축함으로써 글로벌 경쟁력을 확보할 수 있는 기술적 토대가 마련되었습니다.

이 글에 대한 큐레이터 의견

에이전트 시대의 승자는 '모델을 누가 더 잘 쓰느냐'가 아니라 '에이전트의 워크플로우를 얼마나 효율적으로 관리하느냐'에 달려 있습니다. Cloudflare의 이번 발표는 단순한 모델 추가가 아니라, 에이전트 운영의 '운영체제(OS)'를 선점하려는 전략적 움직임입니다.

스타트업 창업자들은 단순히 LLM API를 호출하는 '래퍼(Wrapper)' 서비스에 머물러서는 안 됩니다. Cloudflare가 보여준 것처럼, 상태 관리(Stateful)와 워크플로우를 결합하여 복잡한 에이전트 로직을 설계할 수 있는 능력이 핵심 경쟁력이 될 것입니다. 특히 '77% 비용 절감' 사례에서 보듯, 오픈소스 모델을 에지 인프라에 최적화하여 비즈니스 모델의 지속 가능성을 확보하는 것이 생존의 열쇠입니다.

원문 보기 →