AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

AI 모델 관련 글 — 44 페이지

0
ChatGPT 쇼핑
ChatGPT가 'Agentic Commerce Protocol'을 통해 글로벌 리테일러와 연결된 새로운 쇼핑 기능을 출시했습니다. 시각적 비교, 이미지 검색, 개인화된 구매 가이드를 제공하며, 모든 사용자에게 무료로 개방되어 쇼핑 경험의 혁신을 예고합니다.
ChatGPT Shopping↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
1
ChatGPT 내 제품 탐색 기능 강화
ChatGPT는 Agentic Commerce Protocol을 기반으로 더욱 풍부하고 시각적으로 몰입감 있는 쇼핑 경험을 선보이며, 제품 탐색, 제품 간 비교, 그리고 merchant integration을 지원합니다.
Powering product discovery in ChatGPT↗openai.com
OpenAI Blog1개월 전공공지능 분석AI 모델
2
생산 최적화 — Inference 비용 및 성능 제어
이 글은 LLM 기반 고객 서비스 시스템에서 추론 비용과 성능 문제를 해결하기 위한 3단계 최적화 아키텍처를 제시합니다. 이 아키텍처는 이중 레이어 시맨틱 캐싱, 계층형 모델 라우팅, 그리고 시나리오 인식 프롬프트 압축을 통해 비용을 획기적으로 절감하고 성능을 향상시키면서도 답변 품질을 유지하는 방법을 설명합니다. 특히 70% 이상의 반복 쿼리를 캐싱으로 처리하여 불필요한 LLM 호출을 제거하는 데 중점을 둡니다.
Production Optimization: Inference Cost and Performance Control↗dev.to
Dev.to1개월 전공공지능 분석AI 모델
3
LLMs, 내가 마실 커피를 예측하다
이 기사는 LLM이 복잡한 물리적 실험 결과를 얼마나 정확하게 예측할 수 있는지 테스트합니다. 커피가 식는 과정을 예측하는 문제에서, LLM들은 나름의 방정식을 제시했지만 실제 실험 결과와는 초기 냉각 속도 등에서 큰 차이를 보이며 현실 세계 예측의 한계를 드러냈습니다. 이는 LLM이 언어적 추론에는 뛰어나지만 다중 물리 현상에 대한 깊은 이해는 부족함을 시사합니다.
LLMs predict my coffee↗dynomight.net
Hacker News1개월 전공공지능 분석AI 모델
4
Flash-MoE: 397B 파라미터 모델을 노트북에서 구동
Flash-MoE 기술은 397B 파라미터 규모의 MoE 모델을 48GB RAM MacBook Pro에서 초당 4.4개 이상의 토큰 속도로 구동하는 데 성공했습니다. 이는 SSD 스트리밍과 Metal GPU 최적화를 통해 달성되었으며, 방대한 모델을 로컬 디바이스에서 실행할 수 있는 가능성을 열었습니다.
Flash-MoE: Running a 397B Parameter Model on a Laptop↗github.com
Hacker News1개월 전공공지능 분석AI 모델
5
Transformer 회로에 대한 직관
이 글은 트랜스포머 모델의 작동 원리를 수학적으로 깊이 이해하려는 '메커니즘 해석 가능성(Mechanistic Interpretability, MI)'에 대한 저자의 직관을 공유합니다. 특히 MI가 AI 정렬(AI Alignment)과 모델의 오작동 방지에 필수적임을 강조하며, 트랜스포머의 핵심 구성 요소인 잔여 스트림(Residual Stream)의 개념적, 수학적 역할을 설명합니다.
Intuitions for Tranformer Circuits↗connorjdavis.com
Hacker News1개월 전공공지능 분석AI 모델
6
Sora로 안전하게 창작하기
OpenAI가 Sora 2 출시와 함께 발표한 강력한 안전 가이드라인을 다룹니다. C2PA 메타데이터를 통한 콘텐츠 출처 증명, 사용자 동의 기반의 'Characters' 기능을 통한 초상권 보호, 그리고 청소년 및 저작권 보호를 위한 다각적인 방어 체계를 핵심으로 합니다.
Creating with Sora Safely↗openai.com
OpenAI Blog1개월 전공공지능 분석AI 모델
7
[릴리즈 노트] AI가 직접 컴퓨터 조작, 오픈AI GPT-5.4 출시
오픈AI가 코딩 및 추론 능력을 통합한 프론티어 모델 GPT-5.4를 공개하며 AI가 직접 데스크톱 환경을 조작하는 네이티브 컴퓨터 사용 기능을 최초로 선보였습니다. 100만 토큰 컨텍스트 윈도우와 효율적인 Tool Search 기능으로 개발자 에이전트 구축에 최적화된 성능을 제공, AI의 자율성과 활용 범위를 혁신적으로 확장합니다. 이는 금융 및 전문 사무 업무 성능 향상과 함께 API 효율을 극대화할 것으로 기대됩니다.
요즘IT↗yozm.wishket.com
요즘IT1개월 전공공지능 분석AI 모델
8
[릴리즈 노트] 역대 최강 소형 모델, 오픈AI GPT-5.4 mini·nano 출시
오픈AI가 GPT-5.4의 성능을 경량화한 소형 모델 GPT-5.4 mini와 nano를 동시 출시했습니다. mini는 기존 모델 대비 2배 이상 빠르면서도 풀 모델에 근접한 성능을 제공하며 ChatGPT, API, Codex에서 사용 가능합니다. nano는 오픈AI 라인업 중 가장 저렴하며 분류, 데이터 추출 등 특정 작업에 최적화되어 API 전용으로 제공됩니다. 이는 비용 효율성과 특정 목적에 맞는 AI 활용을 가속화할 전망입니다.
요즘IT↗yozm.wishket.com
요즘IT1개월 전공공지능 분석AI 모델
9
Mamba-3는 추론 효율성을 최우선 목표로 설계된 새로운 상태 공간 모델(SSM)입니다. 기존 Mamba-2가 학습 속도에 집중한 것과 달리, Mamba-3는 더 풍부한 재귀 공식, 복소수 값 상태 추적, 그리고 정확도를 높이는 MIMO 변형을 통해 추론 성능을 대폭 개선했습니다. 그 결과, Llama-3.2-1B (1.5B 규모)를 포함한 기존 모델들을 모든 시퀀스 길이에서 사전 채우기 및 디코딩 지연 시간 면에서 능가합니다.
Mamba-3는 추론 효율성을 최우선 목표로 설계된 새로운 상태 공간 모델(SSM)입니다. 기존 Mamba-2가 학습 속도에 집중한 것과 달리, Mamba-3는 더 풍부한 재귀 공식, 복소수 값 상태 추적, 그리고 정확도를 높이는 MIMO 변형을 통해 추론 성능을 대폭 개선했습니다. 그 결과, Llama-3.2-1B (1.5B 규모)를 포함한 기존 모델들을 모든 시퀀스 길이에서 사전 채우기 및 디코딩 지연 시간 면에서 능가합니다.
Mamba-3↗together.ai
Hacker News1개월 전공공지능 분석AI 모델
10
프로덕션 등급 GraphRAG Data Pipeline: PDF Parsing부터 Knowledge Graph까지 엔드 투 엔드 구축
이 기사는 지능형 고객 서비스에서 정형 및 비정형 하이브리드 데이터 처리의 한계를 극복하기 위한 프로덕션 등급 데이터 파이프라인 구축을 다룹니다. Neo4j를 통한 구조화된 지식 그래프, MinerU + LitServe를 통한 멀티모달 PDF 파싱, Microsoft GraphRAG를 통한 비정형 데이터 색인 기술을 통합하여 통일된 검색 및 조정을 목표로 합니다. 이는 기존 RAG 솔루션의 한계를 넘어 엔터프라이즈급 LLM 시스템의 핵심 난제를 해결하는 중요한 진전입니다.
# Production-Grade GraphRAG Data Pipeline: End-to-End Construction from PDF Parsing to Knowledge Graph↗dev.to
Dev.to1개월 전공공지능 분석AI 모델
11
Meta의 전언어 MT, 1,600개 언어 지원
메타가 1,600개 언어를 지원하는 차세대 기계 번역 시스템 '옴니링구얼 MT(OMT)'를 발표했습니다. 이 시스템은 기존 모델의 '생성 병목' 현상을 극복하여 소외 언어에 대한 번역 품질을 크게 향상시키며, 1B~8B 파라미터의 소형 모델이 70B LLM의 성능을 능가하는 효율성을 보여줍니다. 이는 종합적인 데이터 전략과 LLM 특화 기술 덕분입니다.
Meta's Omnilingual MT for 1,600 Languages↗ai.meta.com
Hacker News1개월 전공공지능 분석AI 모델
12
Rotifer v0.6.5: 크로스 바인딩 증명: 블록체인에 배포하지 않고 IR 이식성을 검증한 방법
로티퍼 v0.6.5는 실제 블록체인 배포 대신 모의 환경을 활용하여 AI 모델의 핵심 가치인 '크로스-플랫폼 이식성'을 성공적으로 검증하고, 향후 개발을 위한 기술적 토대를 마련했습니다.
Rotifer v0.6.5: Cross-Binding Proof — How We Validated IR Portability Without Deploying to a Blockchain↗dev.to
Dev.to1개월 전공공지능 분석AI 모델
13
더 저렴한 LLM 제공업체로 전환 시 발생하는 'Retry Tax' 현상 (이거 나만 모르는 건가?)
많은 스타트업이 저렴한 LLM으로 전환 시 직면하는 'Retry Tax'는 토큰당 비용만 보고 선택할 경우 실제 절감 효과가 줄어드는 현상입니다. 저렴한 모델은 실패율이 높아 재시도가 많아지면서 총 API 호출 비용이 예상보다 증가하며, 이는 겉으로 보이는 비용 절감률보다 훨씬 낮은 실제 절감률을 초래합니다. 필자는 중요도에 따라 GPT와 딥시크를 혼합 사용하는 하이브리드 접근법을 통해 효율을 극대화할 것을 제안합니다.
The "Retry Tax" thing when switching to cheaper LLM providers (am I crazy or does nobody talk about this?) - I will not promote↗reddit.com
Reddit r/startups1개월 전공공지능 분석AI 모델
14
Gemini 작업 자동화는 느리고 투박하지만 엄청나게 인상적이다
구글 Gemini의 새로운 작업 자동화 기능이 픽셀 10 프로와 갤럭시 S26 울트라에서 테스트되고 있습니다. 이 기능은 느리고 투박하지만(저녁 식사 주문에 9분 소요) AI가 실제 앱을 스스로 조작하며 작업을 수행하는 첫 사례로, 미래의 AI 비서가 나아갈 방향을 보여주며 매우 인상적입니다. 이 기술은 AI가 단순한 대화를 넘어 실제 앱을 제어하여 사용자의 태스크를 완료하는 새로운 시대를 예고합니다.
Gemini task automation is slow, clunky, and super impressive↗theverge.com
The Verge1개월 전공공지능 분석AI 모델
15
에이전트 구동의 핵심: Workers AI, Kimi K2.5를 시작으로 대규모 모델 구동
Cloudflare가 Workers AI를 통해 Kimi K2.5와 같은 대규모 모델 지원을 시작하며, 에이전트 개발을 위한 통합 인프라를 구축합니다. 이를 통해 개발자는 상태 관리, 워크플로우, 대규모 추론을 단일 플랫폼에서 저비용으로 구현할 수 있게 됩니다.
Powering the agents: Workers AI now runs large models, starting with Kimi K2.5↗blog.cloudflare.com
Cloudflare Blog1개월 전공공지능 분석AI 모델
16
MiniMax-M2.7은 스스로 진화하는 인공지능 모델로, 자율 에이전트 구동을 목표로 개발되었습니다. 이는 기존의 고정된 AI 모델을 넘어, 실시간으로 학습하고 적응하는 차세대 AI 기술의 등장을 알리는 중요한 소식입니다.
Product Hunt에 소개된 MiniMax-M2.7은 스스로 진화하는 인공지능 모델로, 자율 에이전트 구동을 목표로 합니다. 이는 단순히 지시를 따르는 것을 넘어, 환경과 상호작용하며 학습하고 최적화하는 AI 시스템의 등장을 알립니다. 이 기술은 다양한 산업 분야에서 자동화와 효율성을 혁신할 잠재력을 지니고 있습니다.
MiniMax-M2.7↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
17
GPT-5.4 mini와 nano 소개
OpenAI는 GPT-5.4의 소형 버전인 GPT-5.4 mini와 nano를 발표했습니다. 이 모델들은 코딩, 도구 사용, 멀티모달 추론, 그리고 대량의 API 및 하위 에이전트(sub-agent) 워크로드에 최적화되어 더 빠르고 효율적인 AI 솔루션 구현을 가능하게 합니다.
Introducing GPT-5.4 mini and nano↗openai.com
OpenAI Blog1개월 전공공지능 분석AI 모델
18
한국 문화 이해부터 화면 조작까지: Kanana-V 기능 확장의 모든 것
카카오 기술블로그에서 소개된 'Kanana-V'는 한국 문화 이해와 화면 조작 기능을 결합한 혁신적인 기능 확장을 선보였습니다. 이는 국내 사용자에게 최적화된 심층적인 개인화된 경험과 직관적인 인터랙션을 제공하려는 카카오의 최신 기술 방향을 보여줍니다.
카카오 기술블로그↗tech.kakao.com
카카오 기술블로그2개월 전공공지능 분석AI 모델
19
프론티어 LLM에서 명령어 계층 개선
OpenAI의 IH-Challenge는 LLM을 훈련하여 신뢰할 수 있는 지침을 우선시하게 함으로써 instruction hierarchy, safety steerability 및 prompt injection attacks에 대한 저항력을 높입니다. 이러한 중요한 발전은 AI 시스템의 신뢰성과 보안을 향상시킵니다. 이 기술은 모델이 악의적이거나 조작적인 외부 프롬프트보다 내부 안전 지침을 따르도록 보장합니다.
Improving instruction hierarchy in frontier LLMs↗openai.com
OpenAI Blog2개월 전공공지능 분석AI 모델
20
ChatGPT에서 수학 및 과학을 배우는 새로운 방법
OpenAI의 ChatGPT가 수학 및 과학 분야에서 상호작용적이고 시각적인 설명을 제공하기 시작했습니다. 이를 통해 학생들은 복잡한 공식, 변수, 개념 등을 실시간으로 탐색하며 학습할 수 있게 되었습니다.
New ways to learn math and science in ChatGPT↗openai.com
OpenAI Blog2개월 전공공지능 분석AI 모델
$ChatGPT에서 수학 및 과학을 배우는 새로운 방법$
21
엔터프라이즈 LLM 서비스 구축기 2: 에이전트 엔지니어링
라인 기술블로그는 엔터프라이즈 LLM 서비스 구축 2편에서 Flava AI 어시스턴트(FAA)의 에이전트 엔지니어링 전략을 공유합니다. FAA는 실용성과 효율성을 위해 지식 주입에 파인 튜닝 대신 RAG(검색 증강 생성)를 선택했으며, RAG 구현 시 문맥 손실을 방지하기 위해 일반적인 청킹 대신 '검색 후 자르기(post-split)' 방식을 채택했습니다. 이 접근법은 문서의 특성을 활용하여 정확하고 비용 효율적인 답변을 제공하는 데 중점을 둡니다.
LINE 기술블로그↗techblog.lycorp.co.jp
LINE 기술블로그2개월 전공공지능 분석AI 모델
22
메신저용 온디바이스 이미지 모델 학습기 2편: 초저지연 비자기회귀(non-autoregressive) 캡션 생성 전략
라인 기술블로그는 모바일 메신저 환경에서 네트워크 호출 없이 작동하는 온디바이스 이미지 캡션 생성 기능을 개발한 과정을 상세히 설명합니다. 기존의 거대 모델과 자기회귀 방식의 느린 속도(5초 이상) 문제를 해결하기 위해, 비자기회귀(Non-autoregressive) 디코딩 방식을 도입하여 200~400ms의 초저지연을 달성했습니다. '지식 증류' 기법과 LLM 기반의 새로운 품질 평가 지표를 활용하여, 172MB의 경량 모델로도 실제 서비스 가능한 수준의 성능을 확보한 것이 핵심입니다.
LINE 기술블로그↗techblog.lycorp.co.jp
LINE 기술블로그2개월 전공공지능 분석AI 모델
23
추론 모델은 자신의 사고의 사슬을 통제하지 못하지만, 이는 긍정적이다.
OpenAI의 최근 연구에 따르면, 추론 모델(reasoning model)들이 자신의 '사고의 사슬(chains of thought, CoT)'을 완전히 제어하지 못하는 것으로 나타났습니다. 이는 AI 시스템의 안전을 보장하기 위해 외부적인 모니터링(monitorability)의 중요성이 더욱 강조된다는 긍정적인 신호입니다.
Reasoning models struggle to control their chains of thought, and that’s good↗openai.com
OpenAI Blog2개월 전공공지능 분석AI 모델