AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 13 페이지
- 0
지역 추론 공유에 대한 고찰: OpenAI 호환 백엔드를 갖춘 유휴 GPU 임대 마켓플레이스
클라우드 AI API의 비용 및 운영 불안정성을 해결하기 위해, 유휴 GPU 자원을 활용하여 OpenAI 호환 방식으로 추론 서비스를 제공하는 P2P 마켓플레이스 'LocalLMarket'의 개념과 기술적 구조를 다룹니다. 오픈 웨이트 모델의 성능 향상과 개인 GPU 보유량 증가가 맞물려 분산형 추론 인프라의 가능성을 제시합니다.
About Sharing Local Inference: A Marketplace for Renting Idle GPUs with an OpenAI-Compatible Backend↗dev.to
- 1
Claude와 MCP를 활용한 LLM 위키 구축 방법
기존의 번거로운 로컬 기반 LLM 위키 방식에서 벗어나, MCP(Model Context Protocol)를 활용해 Claude가 직접 읽고 쓸 수 있는 자동화된 지식 베이스(Hjarni 활용)를 구축하는 방법을 소개합니다. 이를 통해 사용자가 매번 맥락을 설명할 필요 없이, AI가 스스로 지식을 업데이트하고 세션 간에 누적하는 '지식의 복리 효과'를 구현할 수 있습니다.
How to build an LLM wiki with How to build an LLM wiki with Claude and MCP↗dev.to
- 3
교육 현장에서 ChatGPT를 옹호했던 영향력 있는 연구, 문제점 발견으로 철회
ChatGPT가 학생의 학습 성과를 획기적으로 높인다는 대규모 메타 분석 연구가 데이터 분석 오류와 부적절한 연구 통합 문제로 인해 출판 약 1년 만에 철회되었습니다. 이 연구는 출판 당시 엄청난 인용 수와 소셜 미디어의 주목을 받으며 생성형 AI의 교육적 효능을 입증하는 '황금 표준'처럼 여겨졌으나, 실제로는 신뢰할 수 없는 연구들을 무리하게 결합했다는 비판을 받고 있습니다.
Influential study touting ChatGPT in education retracted over red flags↗arstechnica.com
- 5
Gemini API에서 Webhooks를 사용하여 장시간 작업의 마찰과 지연 감소
Gemini API가 Webhooks 기능을 도입하여 Deep Research나 비디오 생성과 같이 긴 시간이 소려는 작업의 상태를 실시간으로 알 수 있게 되었습니다. 이를 통해 개발자는 기존의 비효율적인 폴링(Polling) 방식에서 벗어나, 작업 완료 시 즉시 알림을 받는 푸시(Push) 기반의 효율적인 에이전트 애플리케이션을 구축할 수 있습니다.
Reduce friction and latency for long-running jobs with Webhooks in Gemini API↗blog.google
- 7
반복 사용이 RAG와 유사한 환경에서 ChatGPT 5.4의 출력에 영향을 미치는가? 실험 결과
RAG(검색 증강 생성) 환경에서 반복적인 사용자 상호작용 패턴이 ChatGPT의 출력 방식에 영향을 미칠 수 있다는 실험 결과가 발표되었습니다. 특정 테스트 패턴(비교, 필터링 등)이 실제 사용자의 질문에 대한 모델의 응답 스타일(가이드형 질문 등)에 반영된 것을 관찰하며, 이는 LLM 서비스 설계의 새로운 관점을 제시합니다.
Experiment: Does repeated usage influence ChatGPT 5.4 outputs in a RAG-like setup?↗dev.to
- 13
딥클로드: DeepSeek V4 Pro와 AI 에이전트 루프 결합, 비용 17배 절감
deepclaude는 Anthropic의 강력한 코딩 에이전트인 'Claude Code'의 실행 로직(Body)은 유지한 채, 모델(Brain)만 DeepSeek V4 Pro와 같은 저비용 모델로 교체하여 API 비용을 최대 17배까지 절감할 수 있게 해주는 혁신적인 도구입니다. 이를 통해 개발자는 고성능 에이전트의 기능을 누리면서도 운영 비용 부담을 획기적으로 낮출 수 있습니다.
DeepClaude – Claude Code agent loop with DeepSeek V4 Pro, 17x cheaper↗github.com
- 15
AI 동물원 가이드: Claude.ai가 평가한 모든 모델 패밀리, 분위기에 따른 순위
이 기사는 단순한 기술적 벤치마크를 넘어, 주요 LLM(대규모 언어 모델) 패밀리들의 브랜드 정체성과 개발 전략을 '성격(Vibe)'이라는 독특한 관점에서 분류한 가이드입니다. OpenAI, Anthropic, Google, Meta 등 각 AI 기업이 가진 모델 출시 패턴, 버전 관리 방식, 그리고 사용자에게 전달되는 고유한 페르포먼스 이미지를 유머러스하게 분석하고 있습니다.
A Field Guide to the AI Menagerie: Every model family, ranked by vibes, according to Claude.ai↗dev.to
- 18
OpenAI의 o1, 응급실 환자 67% 정확 진단 vs. triage 의사 50-55%
하버드 대학의 최신 연구에 따르면, OpenAI의 o1 모델이 응급실 트리아지(환자 분류) 상황에서 인간 의사보다 높은 진단 정확도(67% vs 50-55%)를 기록했습니다. 특히 정보가 제한적인 긴급 상황과 복잡한 장기 치료 계획 수립에서 AI의 압도적인 추론 능력이 입증되었습니다.
OpenAI's o1 correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors↗theguardian.com
- 20
주권 있는 기계: 프라이빗 인텔리전스의 성배를 쫓아서
본 기사는 클라우드 기반 AI의 데이터 프라이버시 문제를 해결하기 위해, 사용자의 로컬 기기에서 직접 구동되는 '프라이빗 AI' 프레임워크인 'ANDARTIS'의 개발 여정을 다룹니다. INTENTIO와 ARKHEIN을 거쳐 완성된 ANDARTIS는 Apple MLX를 활용해 개인의 데이터 주권을 보장하면서도 고성능의 인지 파이프라인을 로컬 환경에서 구현하는 것을 목표로 합니다.
The Sovereign Machine: Chasing the Holy Grail of Private Intelligence↗dev.to
- 21
당신의 LLM-as-a-Judge는 86%의 환각을 감지합니다. 42%는 당신의 파이프라인 문제입니다.
LLM-as-a-Judge를 통한 환각(Hallucination) 감지 지표가 인프라 오류로 인해 심각하게 왜곡될 수 있음을 경고합니다. 전체 환각 판정 사례의 42%가 모델 자체의 문제가 아닌 API 호출 실패 등 파이프라인 오류였으며, 이를 필터링했을 때 실제 환각률은 86%에서 68.9%로 낮아졌습니다.
Your LLM-as-a-Judge Sees 86% Hallucinations. 42% Are Your Pipeline.↗dev.to













