AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 29 페이지
- 3
Show HN: iOS용 개인 정보 보호 우선, 로컬 LLM 노트 앱 (Google Keep 대안)
Remen은 Llama 3.2 1B 모델을 활용하여 클라우드 연결 없이 기기 내에서 자연어 검색과 자동 태깅을 수행하는 iOS용 개인정보 보호 중심 노트 앱입니다. 사용자의 메모, 음성, 스캔 데이터를 로컬에서 처리하여 보안성을 극대화하면서도, 키워드를 잊어버려도 의미 기반으로 검색할 수 있는 혁신적인 사용자 경험을 제공합니다.
Show HN: A privacy-first, local-LLM note app for iOS (Google Keep alternative)↗github.com
- 4
Claude Opus 4.6과 4.7 시스템 프롬프트 변경 사항
Anthropic의 Claude 4.7 업데이트는 단순한 모델 성능 개선을 넘어, Chrome, Excel, PowerPoint 등과 연동되는 '에이전트 플랫폼'으로의 진화를 보여줍니다. 특히 사용자의 질문에 되묻기보다 스스로 도구를 찾아 문제를 해결하려는 '자율적 행동(Acting)'과 '도구 검색(tool_search)' 기능의 강화가 핵심입니다.
Changes in the system prompt between Claude Opus 4.6 and 4.7↗simonwillison.net
- 5
자체 개선 능력을 갖춘 스테레오 매칭을 위한 자기 지도 학습
정답 데이터(Ground Truth) 없이도 이미지 자체를 활용해 스스로 학습하고 성능을 개선할 수 있는 새로운 자기 지도 학습(Self-supervised Learning) 기반 스테레오 매칭 기술을 소개합니다. 이 기술은 데이터 라벨링 비용을 획기적으로 줄이면서도 고정밀 깊이 추정(Depth Estimation)을 가능하게 합니다.
Self-Supervised Learning for Stereo Matching with Self-Improving Ability↗dev.to
- 6
추론 최적화의 부상: 2026년을 빚어낼 LLM 인프라의 핵심 트렌드
LLM 기술의 패러다임이 모델의 크기를 키우는 '학습(Training)' 중심에서, 효율적으로 실행하는 '추론(Inference) 최적화' 중심으로 이동하고 있습니다. 비용 절감과 지연 시간 단축을 위한 양자화, 스마트 라우팅, 스펙큘레이티브 디코딩 등의 기술이 향후 AI 서비스의 수익성과 경쟁력을 결정짓는 핵심 요소가 될 것입니다.
The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026↗dev.to
- 8
Kubernetes에서 오픈 소스 LLM 안정적으로 배포하는 방법 (단계별 가이드)
이 기사는 오픈 소스 LLM인 TinyLlama를 k3d(경량 Kubernetes) 환경에 안정적으로 배포하는 단계별 가이드를 제공합니다. 단순한 모델 실행을 넘어, Prometheus와 Grafana를 통한 실시간 모xim 모니터링과 Kubernetes의 자동 복구 기능을 활용하여 프로덕션 수준의 AI 인프라를 구축하는 방법을 다룹니다.
How to Deploy an Open Source LLM Reliably on Kubernetes (Step-by-Step)↗dev.to
- 13
LLM-D 출시: Kubernetes 네이티브 분산 추론
CNCF Sandbox 프로젝트로 선정된 'llm-d'는 Kubernetes 네이티브 분산 추론 스택으로, LLM 추론 시 발생하는 KV 캐시 파편화와 레이턴시 급증 문제를 해결합니다. Prefill과 Decode 단계를 분리하고 멀티 티어 KV 캐시를 관리함으로써, 동일 자원 대비 추론 처리량(Throughput)을 최대 70% 높이고 캐시된 토큰 비용을 10배까지 절감할 수 있습니다.
LLM-D Launches: Kubernetes-Native Distributed Inference↗dev.to
- 16
WebAssembly 기반 Apple Silicon에서 Zero-Copy GPU 추론 구현
Apple Silicon의 통합 메모리 구조(UMA)를 활용하여 WebAssembly(Wasm)의 선형 메모리를 GPU와 복사 없이(Zero-Copy) 직접 공유하는 기술적 구현 방법을 다룹니다. 이를 통해 Wasm을 제어 평면으로, GPU를 연동된 연산 평면으로 활용하여 데이터 직렬화 및 복사 오버헤드가 거의 없는 고성능 AI 추론 환경을 구축할 수 있습니다.
Zero-Copy GPU Inference from WebAssembly on Apple Silicon↗abacusnoir.com
- 17
브란스포드 전달: 개념과 Claude 출력 모두를 위한 루프 완성 테스트
이 기사는 '인식(Recognition)'과 '이해(Comprehension)'를 혼동하는 위험성을 지적하며, Bransford Transfer 테스트를 통해 인간의 학습과 AI 에이전트의 일반화 능력을 검증하는 방법을 제시합니다. 새로운 형태의 문제에서도 개념을 적용할 수 있는지 확인하는 것이 진정한 학습과 성능의 척도임을 강조합니다.
Bransford transfer: the loop-completion test for concepts AND for Claude outputs↗dev.to
- 18
F-VLM: 동결된 비전-언어 모델 기반의 개방형 어휘 객체 탐지
F-VLM은 대규모 비전-언어 모델(VLM)의 가중치를 고정(Frozen)한 상태에서 새로운 객체를 탐지할 수 있는 개방형 어휘 객체 탐지(Open-Vocabulary Object Detection) 기술입니다. 모델 전체를 재학습시키는 막대한 비용 없이도, 텍스트 설명만으로 학습 데이터에 없던 새로운 물체를 식별할 수 있는 효율적인 접근법을 제시합니다.
F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models↗dev.to
- 22
Meshcore: 분산 P2P LLM 추론 네트워크를 위한 아키텍처
Meshcore는 고성능 LLM 추론을 위해 설계된 Web2.5 기반의 분산 P2P 컴퓨팅 프로토콜입니다. 중앙 집중식 제어 평면(Control Plane)과 탈중앙화된 데이터/연산 평면(Data Plane)을 결합하여, Apple Silicon과 같은 유휴 에지 하드웨어의 성능을 극대화하는 실용적인 DePIN 아키텍처를 제안합니다.
Meshcore: Architecture for a Decentralized P2P LLM Inference Network↗dev.to













