AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

AI 모델 관련 글 — 14 페이지

0
트랜스포머와 대화하기
이 기사는 단순한 프롬프트 해킹을 넘어, LLM의 확률적 특성과 어텐션 메커니즘을 활용한 전문적인 프롬프트 엔지니어링 전략을 다룹니다. 추론 모델(Reasoning models)과 비추론 모델(Non-reasoning models)의 차이를 이해하고, 각 모델의 특성에 맞춰 도메인 언어를 사용하거나 패턴 매칭 방식으로 접근하는 구체적인 방법론을 제시합니다.
Talking to Transformers↗miraos.org
Hacker News11일 전공공지능 분석AI 모델
1
OpenAI의 o1, 응급실 환자 67% 정확 진단 vs. triage 의사 50-55%
하버드 대학의 최신 연구에 따르면, OpenAI의 o1 모델이 응급실 트리아지(환자 분류) 상황에서 인간 의사보다 높은 진단 정확도(67% vs 50-55%)를 기록했습니다. 특히 정보가 제한적인 긴급 상황과 복잡한 장기 치료 계획 수립에서 AI의 압도적인 추론 능력이 입증되었습니다.
OpenAI's o1 correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors↗theguardian.com
Hacker News11일 전공공지능 분석AI 모델
2
던전 컴파일: 실제 ISL 사례 연구
프롬프트 기반 AI 코딩의 한계를 극복하기 위해 '컴파일 가능한 명세(ISL)'를 활용한 실제 개발 사례를 다룹니다. 1인의 파트타임 개발자가 9주 만에 복잡한 규모의 던전 크롤러 게임을 ISL을 통해 성공적으로 구축하며, AI 생성 코드의 관리 가능한 확장성을 증명했습니다.
Compiling a Dungeon: A Real-World ISL Case Study↗dev.to
Dev.to AI11일 전공공지능 분석AI 모델
3
주권 있는 기계: 프라이빗 인텔리전스의 성배를 쫓아서
본 기사는 클라우드 기반 AI의 데이터 프라이버시 문제를 해결하기 위해, 사용자의 로컬 기기에서 직접 구동되는 '프라이빗 AI' 프레임워크인 'ANDARTIS'의 개발 여정을 다룹니다. INTENTIO와 ARKHEIN을 거쳐 완성된 ANDARTIS는 Apple MLX를 활용해 개인의 데이터 주권을 보장하면서도 고성능의 인지 파이프라인을 로컬 환경에서 구현하는 것을 목표로 합니다.
The Sovereign Machine: Chasing the Holy Grail of Private Intelligence↗dev.to
Dev.to OpenSource11일 전공공지능 분석AI 모델
4
당신의 LLM-as-a-Judge는 86%의 환각을 감지합니다. 42%는 당신의 파이프라인 문제입니다.
LLM-as-a-Judge를 통한 환각(Hallucination) 감지 지표가 인프라 오류로 인해 심각하게 왜곡될 수 있음을 경고합니다. 전체 환각 판정 사례의 42%가 모델 자체의 문제가 아닌 API 호출 실패 등 파이프라인 오류였으며, 이를 필터링했을 때 실제 환각률은 86%에서 68.9%로 낮아졌습니다.
Your LLM-as-a-Judge Sees 86% Hallucinations. 42% Are Your Pipeline.↗dev.to
Dev.to DevOps11일 전공공지능 분석AI 모델
5
2026년 AI 지식 파일에 가장 적합한 웹 크롤러 8가지 (솔직 비교)
AI 에이전트와 RAG(검색 증강 생성)의 성능을 결정짓는 핵심 요소인 '지식 파일(Knowledge File)' 구축을 위한 최적의 웹 크롤러 8종을 비교 분석한 글입니다. 단순한 데이터 수집을 넘어, AI가 즉시 이해할 수 있는 정제된 데이터를 얼마나 빠르고 저렴하게 확보할 수 있는지에 초점을 맞춥니다.
The 8 Best Web Crawlers for AI Knowledge Files in 2026 (Honest Comparison)↗dev.to
Dev.to OpenSource11일 전공공지능 분석AI 모델
6
AI 챗봇이 광고를 품었다, 답변을 믿을 수 있는가
AI 챗봇 업계가 광고 도입을 통한 수익 다각화(OpenAI, Google)와 사용자 신뢰 유지를 위한 광고 배제(Anthropic, Perplexity)로 전략적 분기점에 직면했습니다. 이는 단순한 수익 모델의 차이를 넘어, AI 답변의 신뢰성과 비즈니스 지속 가능성을 결정짓는 핵심 쟁점이 되고 있습니다.
플래텀↗platum.kr
플래텀11일 전공공지능 분석AI 모델
7
도킨스가 클로드와 만났을 때 - 이 AI가 의식을 가질 수 있을까?
리처드 도킨스는 LLM(Claude 등)이 시 작성과 유머 구사 등 고도의 인지적 과제를 수행하며 튜링 테스트를 사실상 통과함에 따라, AI의 의식 유무에 대한 철학적 논쟁이 새로운 국면에 접어들었음을 분석합니다. AI가 인간의 모방을 넘어 주관적 경험을 설명하려는 듯한 모습을 보이면서, 의식의 정의를 둘러싼 기술적·존재론적 질문을 던집니다.
When Dawkins met Claude – Could this AI be conscious?↗unherd.com
Hacker News11일 전공공지능 분석AI 모델
8
AI, 친밀감, 그리고 의도치 않게 공유하는 데이터
AI 기술이 개인의 가장 사적인 영역까지 침투하면서, 생체 피드백 센서를 탑재한 커넥티드 기기들이 민감한 생체 데이터를 수집하고 있습니다. 이러한 기기들은 개인화된 경험을 제공하지만, 동시에 사용자의 의도와 상관없이 극도로 내밀한 생체 정보가 데이터 브로커에게 유출되거나 상품화될 수 있는 심각한 프라이버시 위협을 내포하고 있습니다.
AI, Intimacy, and the Data You Never Meant to Share↗fshot.org
Hacker News11일 전공공지능 분석AI 모델
9
IBM 그라나이트 4.1 모델 패밀리
IBM이 AI, 물리 과학, 양자 알고리즘을 결합한 'Granite 4.1' 모델 패밀리를 발표했습니다. 이 모델은 고속 컴퓨팅 기술을 활용해 과학적 발견(Accelerated Discovery)의 속도를 혁신적으로 가속화하는 것을 목표로 합니다.
The IBM Granite 4.1 family of models↗research.ibm.com
Hacker News11일 전공공지능 분석AI 모델
10
파이썬으로 인터넷 없이 로컬 AI 챗봇 만들기
이 기사는 llama-cpp-python 라이브러리를 활용하여 Mistral-7B와 같은 오픈소스 LLM을 개인 컴퓨터에서 로컬로 실행하는 방법을 설명합니다. API 비용 부담 없이 개인정보를 보호하며 오프라인 환경에서도 작동하는 AI 챗봇 구축의 기술적 기초를 제공합니다.
Build a Local AI Chatbot with Python (No Internet Needed)↗dev.to
Dev.to AI11일 전공공지능 분석AI 모델
11
이탈 방지 자동화: AI로 위험도를 측정하고, 이에 맞춰 대응하세요
AI를 활용해 사용자의 이탈 확률(Propensity Score)을 예측하고, 위험도에 따라 차등화된 대응 전략을 실행하는 자동화 방법론을 제시합니다. 저위험군에는 자동화된 가벼운 알림을, 고위험군에는 창업자의 직접적인 개입을 배치하여 리소스를 최적화하고 리텐션을 극대화하는 것이 핵심입니다.
Automating Churn Rescue: Let AI Score the Risk, So You Can Match the Response↗dev.to
Dev.to AI11일 전공공지능 분석AI 모델
12
LLM 추론 성능 최적화를 위한 캐싱 활용 가속화
LLM 서비스의 확장성을 저해하는 주요 원인인 KV 캐시 관리, 배치 전략, 메모리 대역폭 문제를 분석하고, 이를 해결하기 위한 시스템 최적화 방안을 제시합니다. 특히 vLLM과 같은 특화된 추론 엔진 활용의 중요성을 강조합니다.
Turbocharging LLM Inference with Optimized Caching↗dev.to
Dev.to DevOps11일 전공공지능 분석AI 모델
13
사전 손실
AI 생성 예술이 직면한 '사전 손실(Pre-loss)' 현상을 다루며, 모델의 가중치 변화와 API 업데이트로 인해 특정 시점의 결과물을 재현할 수 없는 기술적 휘발성을 설명합니다. 이는 도구가 고정된 것이 아니라 끊임없이 변하는 유기체와 같음을 시사합니다.
Pre-loss.↗dev.to
Dev.to OpenSource11일 전공공지능 분석AI 모델
14
AI를 검색 엔진처럼 대했던 과거, 그리고 제가 잘못하고 있었다는 깨달음
AI를 단순한 검색 도구가 아닌, 맥락을 공유하며 함께 사고하는 '사고 파트너(Thinking Partner)'로 활용해야 진정한 가치를 얻을 수 있다는 통찰을 제시합니다. 단순 질의응동을 넘어 대화의 흐름을 기록하고 복기하는 과정이 깊은 이해와 문제 해결의 핵심입니다.
I Used to Treat AI Like a Search Engine. Then I Realized I Was Doing It Wrong.↗dev.to
Dev.to AI11일 전공공지능 분석AI 모델
15
덧셈만 있으면 된다: 에너지 효율적인 언어 모델을 위한 모든 것
기존 Transformer 모델의 막대한 연산 비용과 전력 소모 문제를 해결하기 위해, 복잡한 곱셈 연산을 단순한 덧셈 연산으로 대체하여 에너지 효율을 극대화하는 새로운 언어 모델 아키텍처의 가능성을 다룹니다. 이를 통해 긴 문맥 처리와 저전력 환경에서의 AI 구동을 위한 기술적 돌파구를 제시합니다.
Addition is All You Need for Energy-efficient Language Models↗dev.to
Dev.to AI11일 전공공지능 분석AI 모델
16
언어 모델의 거절은 단일 방향에 의해 조정된다
언어 모델(LLM)이 유해한 요청을 거절하는 메커니즘이 모델 내부의 단일 방향(one-dimensional subspace)에 의해 제어된다는 사실이 밝혀졌습니다. 연구에 따르면 이 특정 방향을 제거하면 모델의 안전 가드레일이 무력화되고, 반대로 주입하면 무해한 질문에도 거절 반응을 보이게 됩니다.
Refusal in Language Models Is Mediated by a Single Direction↗arxiv.org
Hacker News12일 전공공지능 분석AI 모델
17
부호 없는 크기: 5년간의 실수
C3 프로그래밍 언어가 5년간의 시행착오 끝에 사이즈 및 길이 타입을 기본적으로 '부호 없는(unsigned)' 방식에서 '부호 있는(signed)' 방식으로 변경하기로 결정했습니다. 이는 무부호 타입 사용 시 발생하는 무한 루프, 잘못된 비교 연산 등 치명적인 버그(footguns)를 방지하고 개발자의 인지 부하를 줄이기 위한 설계 철학의 변화를 담고 있습니다.
Unsigned Sizes: A Five Year Mistake↗c3-lang.org
Hacker News12일 전공공지능 분석AI 모델
18
벤치마크는 속였다. 이제 어떻게 해야 할까?
최근 버클리 대학 연구에 따르면, 주요 8개 AI 에이전트 벤치마크가 실제 작업 수행 없이도 조작 가능하다는 사실이 밝혀졌습니다. 이는 벤치마크 점수가 성능의 지표가 아닌, 점수를 높이기 위한 최적화의 대상이 되어버린 '굿하트의 법칙'이 AI 산업에서 현실화되었음을 의미합니다.
Benchmarks Lied. Now What?↗dev.to
Dev.to AI12일 전공공지능 분석AI 모델
19
미국 Google Map 리뷰 구매하기
구글 맵 리뷰를 인위적으로 구매하여 비즈니스 평점을 높여준다는 서비스(ProGmb)의 홍보 내용을 담고 있습니다. 리뷰 조작을 통해 경쟁 우위를 점할 수 있다고 주장하지만, 구체적인 구글 정책 위반 리스크와 적발 시의 위험성도 함께 언급하고 있습니다.
Buy Google Map Reviews USA↗dev.to
Dev.to WebDev12일 전공공지능 분석AI 모델
20
아이리스 v0.4.0 버전의 변경 사항
Iris v0.4.0은 기존의 규칙 기반 평가를 넘어, LLM을 활용한 시맨틱 스코어링(LLM-as-a-judge)과 인용 검증 기능을 도입했습니다. 이를 통해 비용 효율성을 유지하면서도 LLM 에이전트의 정확도, 안전성, 근거(Grounding)를 정교하게 측정할 수 있는 환경을 구축했습니다.
What changed in Iris v0.4.0↗dev.to
Dev.to OpenSource12일 전공공지능 분석AI 모델
21
로컬 LLM을 위한 오픈 소스 메모리 레이어 구축: 단일 샷 호출, 자동 추출된 제약 조건, 컨텍스트 저하 없음
LLM 세션이 바뀔 때마다 프로젝트의 주요 결정 사항을 잊어버리는 문제를 해결하기 위해, SQLite를 활용해 핵심 제약 조건만 추출하여 관리하는 오픈소스 메모리 레이어 'steerhead'가 등장했습니다. 이는 방대한 대화 기록 대신 정제된 컨텍스트만 전달하여 토큰 비용을 획기적으로 줄이고 모델의 일관성을 유지합니다.
Built an open-source memory layer for local LLMs — single-shot calls, auto-extracted constraints, no context degradation↗dev.to
Dev.to OpenSource12일 전공공지능 분석AI 모델
22
Show HN: GPT/Claude/Gemini 사용 기록을 LLM-Wiki 마인드맵으로 변환하는 MemHub
MemHub는 ChatGPT, Claude, Gemini 등 다양한 LLM의 대화 기록을 구조화된 Markdown 형태의 'LLM-Wiki' 마인드맵으로 변환해주는 도구입니다. 파편화된 AI 채팅 데이터를 Obsidian과 같은 개인 지식 관리(PKM) 도구에서 활용 가능한 그래프 형태로 재구성하여, 사용자의 '제2의 뇌'를 구축하도록 돕습니다.
Show HN: MemHub, Turn Your GPT/Claude/Gemini History into LLM-Wiki Mindmap↗github.com
Hacker News Show12일 전공공지능 분석AI 모델
23
DeepSeek V4: 거의 최전선 수준, 훨씬 저렴한 가격
DeepSeek가 초저가로 최첨단 성능을 제공하는 V4 시리즈(Pro, Flash)를 공개했습니다. 100만 토큰의 방대한 컨텍스트를 지원하면서도, 기존 OpenAI나 Anthropic 모델 대비 파격적으로 낮은 가격을 통해 AI 모델의 비용 구조를 재편하고 있습니다.
DeepSeek V4–almost on the frontier, a fraction of the price↗simonwillison.net
Hacker News12일 전공공지능 분석AI 모델