AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 42 페이지
- 3
M5 Pro 및 IOS를 위한 TurboQuant KV Compression 및 SSD Expert Streaming
SwiftLM은 Apple Silicon에 최적화된 초고속 Swift 추론 서버로, OpenAI 호환 API를 통해 MLX 모델을 서비스합니다. V2+V3 하이브리드 TurboQuant를 통해 KV 캐시를 FP16 대비 3.5배 압축하고, NVMe SSD에서 MoE 레이어를 직접 스트리밍하는 기술로 122B급 대규모 모델도 효율적으로 구동할 수 있습니다. iPhone에서도 MLX 모델을 직접 실행하는 iOS 앱을 제공하여 온디바이스 AI의 가능성을 확장합니다.
TurboQuant KV Compression and SSD Expert Streaming for M5 Pro and IOS↗github.com
- 4
LLM 에이전트는 뇌뿐만 아니라 신경계도 필요하다.
이 기사는 LLM 에이전트의 오작동이 단순히 시스템 오류가 아닌 '행동적 퇴보(behavioral degradation)' 형태로 나타나며, 이를 감지하는 것이 중요하다고 강조합니다. 저자는 모델 출력의 이진적(Pass/Fail) 판단을 넘어, 세션 중 발생하는 범위 확장, 노이즈 증가, 환각 등 미묘한 이상 징후를 실시간으로 모니터링하는 두 가지 계층('세션 드리프트 모니터'와 '엔트로피 캡슐 엔진')을 제안합니다. 특히 공격적 도구(offensive tooling)에서 무단 행동의 위험성을 줄이기 위해 이러한 '신경계' 같은 모니터링 시스템이 필수적임을 역설합니다.
LLM Agents Need a Nervous System, Not Just a Brain↗dev.to
- 5
22,000 토큰 세금: 내가 내 MCP 서버를 죽인 이유
이 글은 LLM 개발 초기 단계에서 작은 비용 절감보다는 탐색과 학습에 집중해야 하며, 실제 토큰 소비의 문제는 '컨텍스트 손실'로 인한 성능 저하에 있음을 강조합니다. 저자는 불필요한 MCP(Multi-Component Platform) 서버가 22,000 토큰을 소모하며 LLM 컨텍스트를 오염시키는 문제를 발견하고, 이를 7개의 단순한 `curl` 셸 스크립트로 대체하여 컨텍스트 효율성과 성능을 극대화한 경험을 공유합니다.
The 22,000 Token Tax: Why I Killed My MCP Server↗dev.to
- 11
토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 어떻게 해결하는가
최근 LLM 아키텍처는 KV 캐시의 메모리 점유율을 획기적으로 줄여 추론 비용을 절감하고 있습니다. GPT-2의 토큰당 300KiB에서 Llama 3의 GQA (128KiB), DeepSeek V3의 MLA (68.6KiB) 같은 기술을 통해 메모리 사용량을 최소화하며, Mamba와 같은 새로운 모델은 아예 KV 캐시를 제거하기도 합니다. 이는 LLM의 운영 효율성과 접근성을 크게 향상시킬 것입니다.
From 300KB to 69KB per Token: How LLM Architectures Solve the KV Cache Problem↗news.future-shock.ai
- 12
코히어(Cohere)가 오픈소스 기반의 최첨단 자동 음성 인식(ASR) 모델 '트랜스크라이브(Transcribe)'를 발표했습니다. 이 모델은 허깅페이스 오픈 ASR 리더보드에서 5.42%의 평균 단어 오류율(WER)로 1위를 기록하며 위스퍼 라지 v3 등을 능가하는 정확도를 보여줍니다. 한국어를 포함한 14개 언어를 지원하며, 생산 환경에 최적화된 설계와 아파치 2.0 라이선스로 제공됩니다.
코히어(Cohere)가 오픈소스 기반의 최첨단 자동 음성 인식(ASR) 모델 '트랜스크라이브(Transcribe)'를 발표했습니다. 이 모델은 허깅페이스 오픈 ASR 리더보드에서 5.42%의 평균 단어 오류율(WER)로 1위를 기록하며 위스퍼 라지 v3 등을 능가하는 정확도를 보여줍니다. 한국어를 포함한 14개 언어를 지원하며, 생산 환경에 최적화된 설계와 아파치 2.0 라이선스로 제공됩니다.
Cohere Transcribe: Speech Recognition↗cohere.com
- 13
세 가지가 맞아떨어져야 했다: LLM 혁명 이면의 진짜 이야기
LLM 혁명은 갑자기 나타난 것이 아니라, 60년간의 연구와 우발적인 기술적 돌파, 그리고 세 가지 핵심 요소(트랜스포머 아키텍처, 방대한 데이터, GPU 하드웨어)가 2017년경 동시에 성숙하면서 가능해졌습니다. 과거의 챗봇과 검색 엔진이 가졌던 '망각 문제'와 '키워드 문제'를 트랜스포머의 '셀프 어텐션' 메커니즘이 해결하며 AI 언어 처리의 패러다임을 바꾼 것이 핵심입니다.
Three Things Had to Align: The Real Story Behind the LLM Revolution↗dev.to
- 14
LLM용 TurboQuant 작동 방식과 RAM 사용량이 훨씬 적은 이유
LLM 스케일링의 주요 병목이 모델 크기/GPU에서 메모리 효율성으로 전환되며, 특히 추론 시 KV 캐시가 막대한 RAM을 소비합니다. TurboQuant는 숫자를 스케일과 정수 코드로 저장하고 어텐션 정확도를 유지하는 경량 교정 단계를 통해 기존 양자화보다 훨씬 적은 RAM으로 LLM을 효율적으로 운영하는 방법을 제시합니다. 이는 LLM 서비스의 비용과 속도 문제를 해결하는 핵심 기술입니다.
How TurboQuant Works for LLMs and Why It Uses Much Less RAM↗dev.to
- 17
Mr. Chatterbox는 빅토리아 시대의 윤리적으로 훈련된 model이다
트립 벤투렐라가 개발한 'Mr. Chatterbox'는 1837년에서 1899년 사이 영국 도서관의 저작권 만료 텍스트 28,000여 권(약 29.3억 토큰)으로만 학습된 빅토리아 시대 스타일의 언어 모델입니다. 이 모델은 3.4억 개의 매개변수로 GPT-2-Medium과 유사한 크기이며 로컬에서 실행 가능하지만, 현재로서는 대화 성능이 매우 제한적입니다. 하지만 저작권 문제가 없는 데이터로 LLM을 학습시킬 수 있다는 가능성을 보여주는 중요한 첫걸음으로 평가됩니다.
Mr. Chatterbox is a Victorian-era ethically trained model↗simonwillison.net
- 18
Google의 2억 매개변수 시계열 파운데이션 모델, 16k 컨텍스트
구글 리서치가 2억 개의 매개변수를 가진 시계열 예측 파운데이션 모델 'TimesFM 2.5'를 공개했습니다. 이 모델은 기존 버전 대비 매개변수를 5억 개에서 2억 개로 줄이면서도 컨텍스트 길이는 16k까지 확장했으며, 연속적인 분위수 예측 기능을 추가했습니다. 이는 복잡한 시계열 데이터를 더욱 효율적이고 정확하게 분석하고 예측하는 새로운 기준을 제시합니다.
Google's 200M-parameter time-series foundation model with 16k context↗github.com
- 19
Universal Claude.md – Claude 출력 토큰 절감
Anthropic Claude 모델의 출력 토큰을 최대 63%까지 절감할 수 있는 `CLAUDE.md` 파일을 소개하는 글입니다. 이 파일은 프로젝트 루트에 두기만 하면 Claude의 불필요한 서문, 미사여구, 형식적 발언, 장황한 코드 생성을 제거하여 더욱 간결하고 파싱하기 쉬운 응답을 유도합니다. 특히 자동화 파이프라인과 같이 높은 출력 볼륨을 가진 시나리오에서 비용 효율성을 크게 높일 수 있습니다.
Universal Claude.md – cut Claude output tokens↗github.com
- 20
Ollama는 이제 Apple Silicon에서 MLX로 구동됩니다 (프리뷰)
Ollama가 2026년 3월 30일부로 Apple의 MLX 프레임워크를 통해 Apple Silicon에서 구동되는 프리뷰 버전을 공개했습니다. 이는 M5 칩셋의 GPU Neural Accelerators를 활용하여 Ollama 0.19 버전에서 기존 대비 최대 2배 빠른 성능(예: 디코드 속도 112 tokens/s)을 제공하며, NVFP4 지원 및 캐싱 개선으로 로컬 LLM 추론의 효율성과 품질을 크게 향상시킵니다.
Ollama is now powered by MLX on Apple Silicon in preview↗ollama.com











