AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 14 페이지
- 1
OpenAI의 o1, 응급실 환자 67% 정확 진단 vs. triage 의사 50-55%
하버드 대학의 최신 연구에 따르면, OpenAI의 o1 모델이 응급실 트리아지(환자 분류) 상황에서 인간 의사보다 높은 진단 정확도(67% vs 50-55%)를 기록했습니다. 특히 정보가 제한적인 긴급 상황과 복잡한 장기 치료 계획 수립에서 AI의 압도적인 추론 능력이 입증되었습니다.
OpenAI's o1 correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors↗theguardian.com
- 3
주권 있는 기계: 프라이빗 인텔리전스의 성배를 쫓아서
본 기사는 클라우드 기반 AI의 데이터 프라이버시 문제를 해결하기 위해, 사용자의 로컬 기기에서 직접 구동되는 '프라이빗 AI' 프레임워크인 'ANDARTIS'의 개발 여정을 다룹니다. INTENTIO와 ARKHEIN을 거쳐 완성된 ANDARTIS는 Apple MLX를 활용해 개인의 데이터 주권을 보장하면서도 고성능의 인지 파이프라인을 로컬 환경에서 구현하는 것을 목표로 합니다.
The Sovereign Machine: Chasing the Holy Grail of Private Intelligence↗dev.to
- 4
당신의 LLM-as-a-Judge는 86%의 환각을 감지합니다. 42%는 당신의 파이프라인 문제입니다.
LLM-as-a-Judge를 통한 환각(Hallucination) 감지 지표가 인프라 오류로 인해 심각하게 왜곡될 수 있음을 경고합니다. 전체 환각 판정 사례의 42%가 모델 자체의 문제가 아닌 API 호출 실패 등 파이프라인 오류였으며, 이를 필터링했을 때 실제 환각률은 86%에서 68.9%로 낮아졌습니다.
Your LLM-as-a-Judge Sees 86% Hallucinations. 42% Are Your Pipeline.↗dev.to
- 21
로컬 LLM을 위한 오픈 소스 메모리 레이어 구축: 단일 샷 호출, 자동 추출된 제약 조건, 컨텍스트 저하 없음
LLM 세션이 바뀔 때마다 프로젝트의 주요 결정 사항을 잊어버리는 문제를 해결하기 위해, SQLite를 활용해 핵심 제약 조건만 추출하여 관리하는 오픈소스 메모리 레이어 'steerhead'가 등장했습니다. 이는 방대한 대화 기록 대신 정제된 컨텍스트만 전달하여 토큰 비용을 획기적으로 줄이고 모델의 일관성을 유지합니다.
Built an open-source memory layer for local LLMs — single-shot calls, auto-extracted constraints, no context degradation↗dev.to
- 22
Show HN: GPT/Claude/Gemini 사용 기록을 LLM-Wiki 마인드맵으로 변환하는 MemHub
MemHub는 ChatGPT, Claude, Gemini 등 다양한 LLM의 대화 기록을 구조화된 Markdown 형태의 'LLM-Wiki' 마인드맵으로 변환해주는 도구입니다. 파편화된 AI 채팅 데이터를 Obsidian과 같은 개인 지식 관리(PKM) 도구에서 활용 가능한 그래프 형태로 재구성하여, 사용자의 '제2의 뇌'를 구축하도록 돕습니다.
Show HN: MemHub, Turn Your GPT/Claude/Gemini History into LLM-Wiki Mindmap↗github.com


















