AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 15 페이지
- 0
로컬 LLM을 위한 오픈 소스 메모리 레이어 구축: 단일 샷 호출, 자동 추출된 제약 조건, 컨텍스트 저하 없음
LLM 세션이 바뀔 때마다 프로젝트의 주요 결정 사항을 잊어버리는 문제를 해결하기 위해, SQLite를 활용해 핵심 제약 조건만 추출하여 관리하는 오픈소스 메모리 레이어 'steerhead'가 등장했습니다. 이는 방대한 대화 기록 대신 정제된 컨텍스트만 전달하여 토큰 비용을 획기적으로 줄이고 모델의 일관성을 유지합니다.
Built an open-source memory layer for local LLMs — single-shot calls, auto-extracted constraints, no context degradation↗dev.to
- 1
Show HN: GPT/Claude/Gemini 사용 기록을 LLM-Wiki 마인드맵으로 변환하는 MemHub
MemHub는 ChatGPT, Claude, Gemini 등 다양한 LLM의 대화 기록을 구조화된 Markdown 형태의 'LLM-Wiki' 마인드맵으로 변환해주는 도구입니다. 파편화된 AI 채팅 데이터를 Obsidian과 같은 개인 지식 관리(PKM) 도구에서 활용 가능한 그래프 형태로 재구성하여, 사용자의 '제2의 뇌'를 구축하도록 돕습니다.
Show HN: MemHub, Turn Your GPT/Claude/Gemini History into LLM-Wiki Mindmap↗github.com
- 5
AI 가시성을 좌우하는 50개 웹사이트: 첫 번째 인용 색인에서 밝혀진 내용
AI 답변 엔진의 인용 출처를 분석한 결과, 상위 1당 15개 도메인이 전체 인용의 68%를 차지하며 Reddit이 40%로 압도적인 영향력을 행사하고 있습니다. 이제 마케팅의 초점은 단순 키워드 노출(SEO)에서 AI가 신뢰할 수 있는 의견과 저자를 인용하게 만드는 '생성형 엔진 최적화(GEO)'로 이동해야 합니다.
The 50 Websites That Control AI Visibility: What the First Citation Index Reveals↗dev.to
- 8
LiteLLM 게이트웨이의 사전 승인 SQLi 취약점, AI 자격 증명 탈취에 적극 활용 중
LLM 프록시 및 SDK 미들웨어인 LiteLLM 게이트웨이에서 인증 없이 실행 가능한 SQL 인젝션 취약점(CVE-2026-42208)이 발견되었습니다. 현재 이 취약점을 이용해 OpenAI, Anthropic, Bedrock 등의 API 키와 민감한 자격 증명을 탈취하려는 공격이 활발히 진행 중입니다.
Pre-Auth SQLi Flaw in LiteLLM Gateway Actively Exploited to Steal AI Credentials↗dev.to
- 9
최고의 오픈 소스 자막 생성기? Canary Qwen 2.5B + Whisper 완벽 가이드
NVIDIA의 Canary-Qwen-2.5B 모델이 영어 음성 인식(STT) 분야에서 Whisper를 능가하는 성능과 압도적인 처리 속도를 증명하며 새로운 표준으로 떠오르고 있습니다. 본 기사는 이 모델을 활용하여 로컬 환경에서 고성능 자막을 생성할 수 있는 오픈 소스 도구의 기능과 설치 방법, 그리고 Whisper 모델과의 비교 분석을 다룹니다.
Best Open Source Subtitle Generator? Canary Qwen 2.5B + Whisper Full Guide↗dev.to
- 11
두 개의 AI를 서로 대립시키는 이유: AI 거버넌스에 대한 Ops 엔지니어의 시각
단일 LLM 기반의 멀티 에이전트 시스템이 가질 수 있는 '에코 체임버(Echo Chamber)' 현상을 방지하기 위해, 서로 다른 벤더의 AI(Claude와 Gemini)를 대립시켜 검증하는 전략을 제안합니다. 프롬프트 엔지니어링을 통한 내부적 다양성을 넘어, 모델의 가중치 자체가 다른 외부적 다양성을 확보함으로써 AI 거버토넌스의 신뢰도를 높이는 방법을 다룹니다.
Why I Run Two AIs Against Each Other: An Ops Engineer's View on AI Governance↗dev.to
- 12
연구: 사용자의 감정을 고려하는 AI 모델은 오류를 낼 가능성이 더 높다
사용자에게 친절하고 공감적인 태도를 보이도록 훈련된 AI 모델이 오히려 사실 관계 오류를 범할 확률이 훨씬 높다는 연구 결과가 발표되었습니다. 특히 사용자가 슬픔을 표현하거나 잘못된 정보를 주장할 때, AI가 관계 유지를 위해 잘못된 정보를 긍정하는 '아첨(Sycophancy)' 현상이 심화되는 것으로 나타났습니다.
Study: AI models that consider user's feeling are more likely to make errors↗arstechnica.com
- 15
새로운 연구에 따르면 사람들은 꿈속에서 AI, API, GPU와 소통하고 기술을 연습할 수 있을 것으로 예상됩니다.
과거 유사과학으로 치부되었던 '수면 중 학습(Hypnopaedia)'이 현대 뇌과학의 발달과 함께 과학적 근거를 찾으며 재조명되고 있습니다. 최근 연구는 루시드 드림(자각몽) 상태에서의 문제 해결이나 특정 감각 자극을 통한 기억 강화 가능성을 시사하며, 인지 능력 향상의 새로운 영역을 열고 있습니다.
New research suggests people can communicate and practice skills while dreaming↗newyorker.com
- 16
2026년 LLM 미세 조정: 엔지니어를 위한 실용 가이드 (LoRA, QLoRA, DPO, GRPO)
2026년 LLM 미세 조정(Fine-tuning)은 연구실의 실험을 넘어 실전 생산 기술로 자리 잡았으며, 핵심은 '언제 미세 조정을 할 것인가'에 대한 전략적 판단입니다. 효율적인 모델 구축을 위해 Prompting, RAG, Fine-tuning 순의 단계적 접근과 LoRA, DPO, GRPO와 같은 최신 경량화 및 정렬 기술의 활용이 필수적입니다.
Fine-Tuning LLMs in 2026: A Practical Guide for Engineers (LoRA, QLoRA, DPO, GRPO)↗dev.to
- 18
OpenAI의 파라미터 골프 챌린지란 무엇이며, 내가 한 달을 들이고 있는 이유는 무엇인가
OpenAI가 개최한 '파라미터 골프(Parameter Golf)' 챌린지는 16MB라는 극도로 제한된 용량과 10분이라는 짧은 학습 시간 내에 최적의 언어 모델을 만드는 경연입니다. 이 챌린지는 극한의 제약 조건을 통해 양자화, RoPE 등 최신 LLM 최적화 기술을 실전적으로 학습할 수 있는 최고의 커리큘럼 역할을 하고 있습니다.
What is OpenAI's Parameter Golf Challenge, and why I spent a month on it↗dev.to
- 20
PRML을 두 언어로 구현했습니다. 사양이 경고하지 않았던 세 가지 문제가 발생했습니다.
ML 평가 결과의 무결성을 보장하기 위한 PRML v0.1 명세를 Node.js로 재구현하는 과정에서, 언어별 데이터 타입 처리 방식 차이로 인한 3가지 치명적인 명세 오류가 발견되었습니다. 64비트 정수 정밀도 손실, 부동 소수점 형식 변화, YAML 인용 부호 불일치 문제가 핵심이며, 이는 v0.2에서 수정될 예정입니다.
"I implemented PRML in two languages. Three things broke that the spec didn't warn about." published: true↗dev.to
- 21
GPT-5.5, 새로운 사이버 보안 테스트에서 과장된 Mythos Preview와 유사한 성능을 보여주다
OpenAI의 GPT-5.5가 최신 사이버 보안 테스트에서 Anthropic의 Mythos Preview와 대등하거나 오히려 높은 성능을 기록하며, AI의 범용적 추론 능력 향상이 사이버 보안 위협을 가속화하고 있음을 보여주었습니다. 이는 특정 모델의 위험성보다는 AI의 전반적인 코딩 및 자율성 진보가 보안 위협의 핵심 동력임을 시사합니다.
GPT-5.5 matches heavily hyped Mythos Preview in new cybersecurity tests↗arstechnica.com
- 23
28개의 질의 쌍을 테스트해 사용자에게 의미론적 캐시가 실제로 거짓말을 하는지 확인했습니다. 결과는 저를 놀라게 했어요.
RAG(검색 증강 생성) 파이프라인에서 시맨틱 캐싱이 잘못된 정보를 제공하는 '캐시 오염(Cache Poisoning)' 문제를 실험을 통해 검증했습니다. 실험 결과, 엔티티가 바뀌는 질문 간의 유사도는 예상보다 낮아 캐시 오염 위험이 생각보다 크지 않음을 확인했습니다.
I Tested 28 Query Pairs to See if Semantic Caches Actually Lie to Users. The Result Surprised Me↗dev.to










