AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 34 페이지
- 0
Show HN: Memwright – 멀티 에이전트 팀을 위한 자체 호스팅 메모리, LLM 우회
Memwright는 멀티 에이전트 시스템의 고질적인 문제인 '기억 상실'과 '비용 효율성 저하'를 해결하기 위한 자체 호스팅 메모리 인프라입니다. LLM을 거치지 않는 결정론적 검색과 토큰 예산 관리를 통해, 에이전트 간의 지식 연속성을 보장하고 프롬프트 비대화를 방지하는 구조적 솔루션을 제공합니다.
Show HN: Memwright – Self-hosted memory for multi-agent teams, no LLM in path↗github.com
- 1
exp-minus-log로 표현할 수 없는 초등함수는 모두가 아니다
최근 인터넷에서 화제가 된 'exp-minus-log(EML) 연산자 하나로 모든 초등함수를 표현할 수 있다'는 논문에 대해, 해당 주장이 매우 제한된 정의 하에서만 유효하며 표준적인 수학적 정의(다항식의 거듭제곱근 포함)에서는 성립하지 않는다는 비판적 분석입니다. 저자는 위상 갈루아 이론(Topological Galois Theory)을 근거로 EML 연산자가 가진 표현력의 한계를 명확히 짚어냅니다.
Not all elementary functions can be expressed with exp-minus-log↗stylewarning.com
- 3
AI의 신뢰도 점수가 거짓말하는 이유: Grounded Calibration과 Self-Assessment 비교
AI 에이전트의 자기 평가(Self-Assessment)는 구조적 편향으로 인해 신뢰할 수 없으며, 이를 해결하기 위해서는 테스트 결과나 코드 변경 사항 같은 결정론적 증거를 활용한 'Grounded Calibration'이 필수적입니다. AI의 주관적 확신과 객관적 지표 사이의 격차를 측정함으로써 AI 시스템의 진정한 신뢰도를 확보할 수 있습니다.
Grounded Calibration vs Self-Assessment: Why Your AI's Confidence Score Is Lying↗dev.to
- 7
프로덕션 환경의 MCP 서버 아키텍처: 10+ 엔터프라이즈 배포를 통해 얻은 교훈
이 기사는 LLM과 외부 시스템을 연결하는 표준인 MCP(Model Context Protocol)를 프로덕션 환경에 배포할 때 필요한 엔터프라이즈급 아키텍처와 실무적 교훈을 다룹니다. 단순한 프로토타입을 넘어 보안, 확장성, 관측성을 갖춘 안정적인 MCP 서버 구축을 위한 5계층 아키텍처와 주요 도전 과제를 제시합니다.
MCP Server Architecture in Production: What We Learned from 10+ Enterprise Deployments↗dev.to
- 14
이론에서 증거로: 대규모 데이터 품질 검증을 위한 Shannon Entropy의 유효성 확인
이 기사는 대규모 데이터 품질 검증을 위해 Shannon Entropy(샤논 엔트로피)를 활용하는 방법론이 기존의 규칙 기반(Rule-based) 또는 통계적(KS-test) 방식보다 월등히 효과적임을 실험으로 증명합니다. 약 660만 건의 데이터를 대상으로 한 실험 결과, 엔트로피 기반 방식은 데이터 드리프트 탐지에서 오탐률 0%를 기록했으며, 기존 방식보다 최대 2.12배 빠른 처리 속도를 보여주었습니다.
From Theory to Evidence: Validating Shannon Entropy for Data Quality at Scale↗dev.to
- 15
Google, Chrome에 "Skills" 도입해 Gemini 프롬프트 즉시 재사용 가능하게 합니다
구글 크롬이 Gemini 프롬프통을 저장하고 클릭 한 번으로 즉시 실행할 수 있는 'Skills' 기능을 도입합니다. 이 기능은 반복적인 브라우징 작업을 자동화하여 사용자가 별도의 프롬프트 입력 없이도 웹 페이지 요약, 데이터 비교 등의 AI 작업을 효율적으로 수행할 수 있게 돕습니다.
Google introduces "Skills" in Chrome to make Gemini prompts instantly reusable↗arstechnica.com
- 18
비인간 ID 보호: 자동 해지, OAuth, 그리고 범위 기반 권한 부여
Cloudflare가 AI 에이전트 및 자동화 도구와 같은 '비인간 ID(Non-human identities)'를 보호하기 위한 새로운 보안 기능을 발표했습니다. GitHub와의 파트너십을 통한 토큰 자동 해지, OAuth 가시성 확보, 그리고 세분화된 권한 부여(RBAC)를 통해 AI 시대의 새로운 보안 위협에 대응합니다.
Securing non-human identities: automated revocation, OAuth, and scoped permissions↗blog.cloudflare.com
- 19
MCP 도입 확장을 위한 레퍼런스 아키텍처: 더 간단하고 안전하며 저렴한 엔터프라이즈 MCP 배포
Cloudflare는 기업 내 AI 에이전트 워크플로우 확산을 위해 MCP(Model Context Protocol)를 안전하고 저렴하게 배포할 수 있는 레퍼런스 아키텍처를 공개했습니다. 로컬 MCP 서버의 보안 취약점을 해결하기 위해 중앙 집중형 원격 MCP 서버 구조를 채택하고, 인증 및 비용 관리 기능을 통합하여 엔터프라이즈급 AI 거버넌스를 구축하는 전략을 제시합니다.
Scaling MCP adoption: Our reference architecture for simpler, safer and cheaper enterprise deployments of MCP↗blog.cloudflare.com
- 23
내성적 확산 언어 모델
I-DLM(Introspective Diffusion Language Model)은 기존 확산 언적 모델(DLM)의 고질적인 문제인 품질 저하를 '내성적 일관성(Introspective Consistency)' 확보를 통해 해결한 혁신적인 모델입니다. 이를 통해 기존 AR(Autoregressive) 모델 수준의 성능을 유지하면서도, 고동시성 환경에서 추론 처리량(Throughput)을 최대 4.1배까지 끌어올리는 데 성공했습니다.
Introspective Diffusion Language Models↗introspective-diffusion.github.io













