AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 9 페이지
- 2
ZAYA1-8B, 10억 개 미만의 활성 파라미터로 DeepSeek-R1의 수학 능력과 어깨를 나란히 하다
Zyphra가 공개한 ZAYA1-8B는 10억 개 미만의 활성 파라미터만으로 DeepSeek-R1 수준의 수학 능력을 구현한 혁신적인 MoE(Mixture of Experts) 모델입니다. 특히 NVIDIA가 아닌 AMD 하드웨어 환경에서 엔드투엔드 학습에 성공하며, 효율적인 추론 기술인 'Markovian RSA'를 통해 고성능을 입증했습니다.
ZAYA1-8B matches DeepSeek-R1 on math with less than 1B active parameters↗firethering.com
- 6
DPO vs SimPO: 당신의 선호도 트레이너는 무엇을 최적화하고 있는가
이 기사는 LLM 선호도 학습(Preference Tuning)의 핵심 방법론인 DPO와 SimPO의 기술적 차이를 심층 비교하며, 단순한 학습 지표의 상승이 아닌 검증 데이터(Held-out)에서의 실제 성능 개선 여부를 확인하는 것이 중요하다고 강조합니다. 특히 SimPO가 참조 모델 없이 길이 정규화를 통해 답변 길이 편향을 줄이는 메커니즘을 상세히 설명합니다.
DPO vs SimPO: What Your Preference Trainer Is Actually Optimizing↗dev.to
- 15
ProgramBench: 언어 모델, 프로그램 코딩 없이 처음부터 재구축할 수 있을까?
ProgramBench는 LLM이 단순한 코드 수정을 넘어, 문서와 실행 결과만을 바탕으로 전체 소프트웨어 프로젝트를 처음부터 재구체화할 수 있는지 측정하는 새로운 벤치마크입니다. 실험 결과, 현재의 최상위 모델들도 복잡한 소프트웨어를 완벽히 구현하는 데 실패했으며, 인간의 코드와 달리 모듈화되지 않은 단일 파일 형태의 구현을 선호하는 한계를 보였습니다.
ProgramBench: Can Language Models Rebuild Programs from Scratch?↗arxiv.org
- 18
생각이 단어가 되기 전, 아주 짧은 순간이 있습니다. 그것은 형태를...
생각이 언어로 구체화되기 전의 찰나를 LLM(대규모 언어 모델)의 확률적 토큰 생성과 예술적 창작 과정에 비유하여 설명합니다. 무한한 가능성의 상태(field)가 하나의 결정된 결과(token/word)로 응축되는 '붕تمل(collapse)'의 순간과 그 과정에서 소멸하는 다른 가능성들에 대한 철학적 통찰을 담고 있습니다.
There is a moment, very brief, when a thought is not yet a word. It has shape...↗dev.to
- 21
55.6% 문제: 임베디드 코드에서 프론티어 LLM이 실패하는 이유
최신 LLM들이 웹 개발과 달리 임베디드 시스템 개발에서는 55.6%라는 낮은 성공률을 보이며 한계를 드러내고 있습니다. 이는 모델의 지식 부족뿐만 아니라, 컴파일 및 디버깅과 같은 '반복적 피드백 루프'의 부재 때문이며, 이를 해결하기 위해 도구 사용 능력을 갖춘 MCP(Model Context Protocol) 기반의 에이전트 접근 방식이 대안으로 제시됩니다.
The 55.6% problem: why frontier LLMs fail at embedded code↗dev.to


















