AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 35 페이지
- 0
내성적 확산 언어 모델
I-DLM(Introspective Diffusion Language Model)은 기존 확산 언적 모델(DLM)의 고질적인 문제인 품질 저하를 '내성적 일관성(Introspective Consistency)' 확보를 통해 해결한 혁신적인 모델입니다. 이를 통해 기존 AR(Autoregressive) 모델 수준의 성능을 유지하면서도, 고동시성 환경에서 추론 처리량(Throughput)을 최대 4.1배까지 끌어올리는 데 성공했습니다.
Introspective Diffusion Language Models↗introspective-diffusion.github.io
- 1
MCP 대규모 환경에서의 활용: 접근 제어, 비용 관리, 92% 절감된 토큰 비용
MCP(Model Context Protocol) 도입 시 도구(Tool) 수가 늘어남에 따라 발생하는 토큰 비용 폭증과 보안 문제를 해결하기 위한 Bifrost의 'Code Mode' 기술을 소개합니다. 필요한 도구 정보만 온디맨드로 로드하는 레이지 로딩(Lazy Loading) 방식을 통해, 500개 이상의 도구 환경에서도 토큰 비용을 최대 92%까지 절감할 수 있습니다.
MCP at Scale: Access Control, Cost Governance, and 92% Lower Token Costs↗dev.to
- 6
Show HN: Mcptube – Karpathy의 LLM 위키 아이디어를 유튜브 영상에 적용
mcptube-vision은 유튜브 영상을 단순한 검색 대상이 아닌, 지속적으로 업데이트되는 '지식 위키(Wiki)'로 변환하는 엔진입니다. Andrej Karpathy의 LLM Wiki 아이디어를 바탕으로, 텍스트(자막)와 시각 정보(프레임 분석)를 결합하여 영상 속 지식을 구조화하고 새로운 영상이 추가될 때마다 기존 지식과 연결하여 지식의 복리 효과를 창출합니다.
Show HN: Mcptube – Karpathy's LLM Wiki idea applied to YouTube videos↗github.com
- 7
N-Day-Bench: LLM이 실제 코드베이스에서 실제 취약점을 찾을 수 있을까?
N-Day-Bench는 LLM이 학습 데이터 컷오프(Knowledge Cut-off) 이후에 공개된 실제 보안 취약점(N-Day)을 찾아낼 수 있는 능력을 측정하는 새로운 벤치마크입니다. 이 벤치마크는 모델의 단순한 지식 암기가 아닌, 실제 코드베이스에서 새로운 보안 위협을 발견하는 '취약점 탐지(Vulnerability Discovery)' 역량을 정밀하게 평가합니다.
N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?↗ndaybench.winfunc.com
- 12
Show HN: LLM 운영을 위한 Bloomberg Terminal, 무료 오픈 소스 버전으로 출시
LLM 서비스의 가동률, 비용, 리스크를 통합 관리할 수 있는 오픈 소스 'LLM Ops Toolkit'이 출시되었습니다. 마치 금융 거래를 위한 블룸버그 터미널처럼, 18개 이상의 LLM 제공업체의 상태를 모니터링하고 비용 및 지연 시간을 시뮬레이션하여 운영의 불확실성을 제거하는 것을 목표로 합니다.
Show HN: Bloomberg Terminal for LLM ops – free and open source↗news.ycombinator.com
- 13
Show HN: 제가 Gemma 4 E2B를 벤치마크했습니다 – 2B 모델이 멀티턴에서 12B를 이겼습니다.
구글의 최신 소형 모델인 Gemma 4 E2B(2B)가 벤치마크 결과, 파라미터 수가 훨씬 많은 상위 모델들을 압도하는 놀라운 성능을 보여주었습니다. 특히 멀티턴 대화와 RAG 성능에서 세대 간의 비약적인 발전을 이루며, 소형 모델(SLM)의 효율성이 극대화되었음을 증명했습니다.
Show HN: I benchmarked Gemma 4 E2B – the 2B model beat the 12B on multi-turn↗aiexplr.com
- 20
Slash Local LLM Latency by 67%: Open-Source Magic (No Cloud Needed) Slash Local LLM Latency by 67%: 오픈소스 마법 (클라우드 불필요)
로컬 LLM의 응답 지연 시간을 67% 단축할 수 있는 오픈소스 최적화 전략을 소개합니다. Hugging Face의 기본 설정 대신 vLLM, llama.cpp, 4-bit 양자화 및 프롬프트 최적화를 활용하여 저사양 하드웨어에서도 고성능 추론 환경을 구축하는 방법을 제시합니다.
Slash Local LLM Latency by 67%: Open-Source Magic (No Cloud Needed)↗dev.to
- 21
OpenAI의 경쟁사 제압에 관한 최신 내부 메모 공개
OpenAI의 최고수익책임자(CRO) 데니스 드레서의 내부 메모를 통해, OpenAI가 단순한 모델 제공자를 넘어 기업용 'AI 플랫폼'으로 진화하려는 전략이 공개되었습니다. OpenAI는 Anthropic 등 경쟁사와의 격차를 벌리기 위해 제품 간 통합과 기업 워크플로우에 대한 깊은 침투를 통해 강력한 해자(Moat)를 구축하는 데 집중할 계획입니다.
Read OpenAI’s latest internal memo about beating the competition — including Anthropic↗theverge.com
- 23
Show HN: Rekal – LLM을 위한 장기 기억, 단일 SQLite 파일에 담기
Rekal은 Claude Code와 같은 LLM 에이전트에게 로컬 SQLite 파일을 활용해 장기 기억을 부여하는 MCP(Model Context Protocol) 서버입니다. 클라우드나 외부 API 키 없이도 키워드, 벡터, 최신성을 결합한 하이브리드 검색을 통해 개인화된 컨텍스트를 기기 내에서 안전하게 유지합니다.
Show HN: Rekal – Long-term memory for LLMs in a single SQLite file↗github.com














