AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 44 페이지
- 2
생산 최적화 — Inference 비용 및 성능 제어
이 글은 LLM 기반 고객 서비스 시스템에서 추론 비용과 성능 문제를 해결하기 위한 3단계 최적화 아키텍처를 제시합니다. 이 아키텍처는 이중 레이어 시맨틱 캐싱, 계층형 모델 라우팅, 그리고 시나리오 인식 프롬프트 압축을 통해 비용을 획기적으로 절감하고 성능을 향상시키면서도 답변 품질을 유지하는 방법을 설명합니다. 특히 70% 이상의 반복 쿼리를 캐싱으로 처리하여 불필요한 LLM 호출을 제거하는 데 중점을 둡니다.
Production Optimization: Inference Cost and Performance Control↗dev.to
- 8
[릴리즈 노트] 역대 최강 소형 모델, 오픈AI GPT-5.4 mini·nano 출시
오픈AI가 GPT-5.4의 성능을 경량화한 소형 모델 GPT-5.4 mini와 nano를 동시 출시했습니다. mini는 기존 모델 대비 2배 이상 빠르면서도 풀 모델에 근접한 성능을 제공하며 ChatGPT, API, Codex에서 사용 가능합니다. nano는 오픈AI 라인업 중 가장 저렴하며 분류, 데이터 추출 등 특정 작업에 최적화되어 API 전용으로 제공됩니다. 이는 비용 효율성과 특정 목적에 맞는 AI 활용을 가속화할 전망입니다.
요즘IT↗yozm.wishket.com![[릴리즈 노트] 역대 최강 소형 모델, 오픈AI GPT-5.4 mini·nano 출시](https://startupschool.cc/og/릴리즈-노트-역대-최강-소형-모델-오픈ai-gpt-54-mininano-출시-4feeb7.jpg)
- 9
Mamba-3는 추론 효율성을 최우선 목표로 설계된 새로운 상태 공간 모델(SSM)입니다. 기존 Mamba-2가 학습 속도에 집중한 것과 달리, Mamba-3는 더 풍부한 재귀 공식, 복소수 값 상태 추적, 그리고 정확도를 높이는 MIMO 변형을 통해 추론 성능을 대폭 개선했습니다. 그 결과, Llama-3.2-1B (1.5B 규모)를 포함한 기존 모델들을 모든 시퀀스 길이에서 사전 채우기 및 디코딩 지연 시간 면에서 능가합니다.
Mamba-3는 추론 효율성을 최우선 목표로 설계된 새로운 상태 공간 모델(SSM)입니다. 기존 Mamba-2가 학습 속도에 집중한 것과 달리, Mamba-3는 더 풍부한 재귀 공식, 복소수 값 상태 추적, 그리고 정확도를 높이는 MIMO 변형을 통해 추론 성능을 대폭 개선했습니다. 그 결과, Llama-3.2-1B (1.5B 규모)를 포함한 기존 모델들을 모든 시퀀스 길이에서 사전 채우기 및 디코딩 지연 시간 면에서 능가합니다.
Mamba-3↗together.ai
- 10
프로덕션 등급 GraphRAG Data Pipeline: PDF Parsing부터 Knowledge Graph까지 엔드 투 엔드 구축
이 기사는 지능형 고객 서비스에서 정형 및 비정형 하이브리드 데이터 처리의 한계를 극복하기 위한 프로덕션 등급 데이터 파이프라인 구축을 다룹니다. Neo4j를 통한 구조화된 지식 그래프, MinerU + LitServe를 통한 멀티모달 PDF 파싱, Microsoft GraphRAG를 통한 비정형 데이터 색인 기술을 통합하여 통일된 검색 및 조정을 목표로 합니다. 이는 기존 RAG 솔루션의 한계를 넘어 엔터프라이즈급 LLM 시스템의 핵심 난제를 해결하는 중요한 진전입니다.
# Production-Grade GraphRAG Data Pipeline: End-to-End Construction from PDF Parsing to Knowledge Graph↗dev.to
- 13
더 저렴한 LLM 제공업체로 전환 시 발생하는 'Retry Tax' 현상 (이거 나만 모르는 건가?)
많은 스타트업이 저렴한 LLM으로 전환 시 직면하는 'Retry Tax'는 토큰당 비용만 보고 선택할 경우 실제 절감 효과가 줄어드는 현상입니다. 저렴한 모델은 실패율이 높아 재시도가 많아지면서 총 API 호출 비용이 예상보다 증가하며, 이는 겉으로 보이는 비용 절감률보다 훨씬 낮은 실제 절감률을 초래합니다. 필자는 중요도에 따라 GPT와 딥시크를 혼합 사용하는 하이브리드 접근법을 통해 효율을 극대화할 것을 제안합니다.
The "Retry Tax" thing when switching to cheaper LLM providers (am I crazy or does nobody talk about this?) - I will not promote↗reddit.com
- 14
Gemini 작업 자동화는 느리고 투박하지만 엄청나게 인상적이다
구글 Gemini의 새로운 작업 자동화 기능이 픽셀 10 프로와 갤럭시 S26 울트라에서 테스트되고 있습니다. 이 기능은 느리고 투박하지만(저녁 식사 주문에 9분 소요) AI가 실제 앱을 스스로 조작하며 작업을 수행하는 첫 사례로, 미래의 AI 비서가 나아갈 방향을 보여주며 매우 인상적입니다. 이 기술은 AI가 단순한 대화를 넘어 실제 앱을 제어하여 사용자의 태스크를 완료하는 새로운 시대를 예고합니다.
Gemini task automation is slow, clunky, and super impressive↗theverge.com
- 16
MiniMax-M2.7은 스스로 진화하는 인공지능 모델로, 자율 에이전트 구동을 목표로 개발되었습니다. 이는 기존의 고정된 AI 모델을 넘어, 실시간으로 학습하고 적응하는 차세대 AI 기술의 등장을 알리는 중요한 소식입니다.
Product Hunt에 소개된 MiniMax-M2.7은 스스로 진화하는 인공지능 모델로, 자율 에이전트 구동을 목표로 합니다. 이는 단순히 지시를 따르는 것을 넘어, 환경과 상호작용하며 학습하고 최적화하는 AI 시스템의 등장을 알립니다. 이 기술은 다양한 산업 분야에서 자동화와 효율성을 혁신할 잠재력을 지니고 있습니다.
MiniMax-M2.7↗producthunt.com
- 19
프론티어 LLM에서 명령어 계층 개선
OpenAI의 IH-Challenge는 LLM을 훈련하여 신뢰할 수 있는 지침을 우선시하게 함으로써 instruction hierarchy, safety steerability 및 prompt injection attacks에 대한 저항력을 높입니다. 이러한 중요한 발전은 AI 시스템의 신뢰성과 보안을 향상시킵니다. 이 기술은 모델이 악의적이거나 조작적인 외부 프롬프트보다 내부 안전 지침을 따르도록 보장합니다.
Improving instruction hierarchy in frontier LLMs↗openai.com
- 21
엔터프라이즈 LLM 서비스 구축기 2: 에이전트 엔지니어링
라인 기술블로그는 엔터프라이즈 LLM 서비스 구축 2편에서 Flava AI 어시스턴트(FAA)의 에이전트 엔지니어링 전략을 공유합니다. FAA는 실용성과 효율성을 위해 지식 주입에 파인 튜닝 대신 RAG(검색 증강 생성)를 선택했으며, RAG 구현 시 문맥 손실을 방지하기 위해 일반적인 청킹 대신 '검색 후 자르기(post-split)' 방식을 채택했습니다. 이 접근법은 문서의 특성을 활용하여 정확하고 비용 효율적인 답변을 제공하는 데 중점을 둡니다.
LINE 기술블로그↗techblog.lycorp.co.jp
- 22
메신저용 온디바이스 이미지 모델 학습기 2편: 초저지연 비자기회귀(non-autoregressive) 캡션 생성 전략
라인 기술블로그는 모바일 메신저 환경에서 네트워크 호출 없이 작동하는 온디바이스 이미지 캡션 생성 기능을 개발한 과정을 상세히 설명합니다. 기존의 거대 모델과 자기회귀 방식의 느린 속도(5초 이상) 문제를 해결하기 위해, 비자기회귀(Non-autoregressive) 디코딩 방식을 도입하여 200~400ms의 초저지연을 달성했습니다. '지식 증류' 기법과 LLM 기반의 새로운 품질 평가 지표를 활용하여, 172MB의 경량 모델로도 실제 서비스 가능한 수준의 성능을 확보한 것이 핵심입니다.
LINE 기술블로그↗techblog.lycorp.co.jp - 23
추론 모델은 자신의 사고의 사슬을 통제하지 못하지만, 이는 긍정적이다.
OpenAI의 최근 연구에 따르면, 추론 모델(reasoning model)들이 자신의 '사고의 사슬(chains of thought, CoT)'을 완전히 제어하지 못하는 것으로 나타났습니다. 이는 AI 시스템의 안전을 보장하기 위해 외부적인 모니터링(monitorability)의 중요성이 더욱 강조된다는 긍정적인 신호입니다.
Reasoning models struggle to control their chains of thought, and that’s good↗openai.com






![[릴리즈 노트] AI가 직접 컴퓨터 조작, 오픈AI GPT-5.4 출시](https://startupschool.cc/og/릴리즈-노트-ai가-직접-컴퓨터-조작-오픈ai-gpt-54-출시-9bd68f.jpg)





