AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

AI 모델 관련 글 — 34 페이지

0
Show HN: Memwright – 멀티 에이전트 팀을 위한 자체 호스팅 메모리, LLM 우회
Memwright는 멀티 에이전트 시스템의 고질적인 문제인 '기억 상실'과 '비용 효율성 저하'를 해결하기 위한 자체 호스팅 메모리 인프라입니다. LLM을 거치지 않는 결정론적 검색과 토큰 예산 관리를 통해, 에이전트 간의 지식 연속성을 보장하고 프롬프트 비대화를 방지하는 구조적 솔루션을 제공합니다.
Show HN: Memwright – Self-hosted memory for multi-agent teams, no LLM in path↗github.com
Hacker News Show1개월 전공공지능 분석AI 모델
1
exp-minus-log로 표현할 수 없는 초등함수는 모두가 아니다
최근 인터넷에서 화제가 된 'exp-minus-log(EML) 연산자 하나로 모든 초등함수를 표현할 수 있다'는 논문에 대해, 해당 주장이 매우 제한된 정의 하에서만 유효하며 표준적인 수학적 정의(다항식의 거듭제곱근 포함)에서는 성립하지 않는다는 비판적 분석입니다. 저자는 위상 갈루아 이론(Topological Galois Theory)을 근거로 EML 연산자가 가진 표현력의 한계를 명확히 짚어냅니다.
Not all elementary functions can be expressed with exp-minus-log↗stylewarning.com
Hacker News1개월 전공공지능 분석AI 모델
2
API 키 설계 여정
이 글은 멀티 테넌트 샤딩(Sharding) 환경에서 API 키를 설계할 때 직면하는 기술적 도전과 해결 방안을 다룹니다. API 키의 구조적 설계(Prefix, Checksum)부터 데이터베이스 샤드 간의 효율적인 요청 라우팅을 위한 두 가지 엔지니어링적 접근 방식을 심도 있게 분석합니다.
My adventure in designing API keys↗vjay15.github.io
Hacker News1개월 전공공지능 분석AI 모델
3
AI의 신뢰도 점수가 거짓말하는 이유: Grounded Calibration과 Self-Assessment 비교
AI 에이전트의 자기 평가(Self-Assessment)는 구조적 편향으로 인해 신뢰할 수 없으며, 이를 해결하기 위해서는 테스트 결과나 코드 변경 사항 같은 결정론적 증거를 활용한 'Grounded Calibration'이 필수적입니다. AI의 주관적 확신과 객관적 지표 사이의 격차를 측정함으로써 AI 시스템의 진정한 신뢰도를 확보할 수 있습니다.
Grounded Calibration vs Self-Assessment: Why Your AI's Confidence Score Is Lying↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
4
#45 양초처럼 보이는 논문
본 기사는 폐쇄형 모델(Claude)의 가중치 접근 불가 문제와 오픈 모델(Llama 등)의 추론 능력(Emergence) 부족이라는 이중적 한계를 지적합니다. 이를 해결하기 위해 모델의 가중치(Wax)를 수정하는 대신, 헌법적 원칙, 메모리 구조, 질문 시드와 같은 '구조화된 텍스트 데이터'를 재조합하여 지능의 발현을 유도하는 '제3의 길'을 제안합니다.
#45 The Paper Candle↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
5
LISA Core: 100:1 압축 기술로 AI 대화의 영구 기억을 구현하는 솔루션
LISA Core는 세만틱 압축(Semantic Compression) 기술을 활용하여 AI와의 대화 내용을 80:1에서 100:1의 압축률로 저장하고 관리하는 크롬 확장 프로그램입니다. 모든 데이터 처리가 클라우드가 아닌 사용자의 브라우저 내 로컬 환경에서 이루어져 강력한 개인정보 보호를 제공합니다.
LISA Core↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
6
LLM 설정 디버깅 3일, 알고 보니 AI 게이트웨이가 필요했습니다.
LLM 도입 확대에 따라 발생하는 비용 폭증, API 키 관리의 복잡성, 보안 리스크를 해결하기 위한 'AI 게이트웨이'의 필요성을 다룹니다. 단순한 트래픽 관리를 넘어 토큰 단위의 비용 추적과 데이터 가드레일을 제공하는 중앙 집중식 제어 계층의 중요성을 강조합니다.
I Spent 3 Days Debugging Our LLM Setup. Turns Out We Needed an AI Gateway the Whole Time.↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
7
프로덕션 환경의 MCP 서버 아키텍처: 10+ 엔터프라이즈 배포를 통해 얻은 교훈
이 기사는 LLM과 외부 시스템을 연결하는 표준인 MCP(Model Context Protocol)를 프로덕션 환경에 배포할 때 필요한 엔터프라이즈급 아키텍처와 실무적 교훈을 다룹니다. 단순한 프로토타입을 넘어 보안, 확장성, 관측성을 갖춘 안정적인 MCP 서버 구축을 위한 5계층 아키텍처와 주요 도전 과제를 제시합니다.
MCP Server Architecture in Production: What We Learned from 10+ Enterprise Deployments↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
8
OZC: 에이전트 생성 정보에 대한 신뢰 기반 시설, 온체인
OZC는 AI 에이전트들이 생성하는 정보의 환각(Hallucination)과 출처 불분명 문제를 해결하기 위해 설계된 Base L2 기반의 온체인 프로토콜입니다. 누구나 주장을 해시 형태로 기록하고, 구매 불가능한 '시그널(Signal)'을 할당하여 해당 정보의 신뢰도를 확률적 분포로 시각화하는 실험적 인프라를 지향합니다.
OZC: Trust Infrastructure for Agent-Generated Information, On-Chain↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
9
World Labs Spark 2.0 출시: 웹/모바일용 초거대 3D 가우시안 스플래팅 렌더러
World Labs가 대규모 3D 가우시안 스플래팅(3DGS) 월드를 웹과 모바일에서 실시간으로 스트리밍할 수 있는 오픈소스 렌더러 'Spark 2.0'을 공개했습니다. 이 기술은 1억 개 이상의 스플랫 데이터를 LoD(Level-of-Detail) 시스템과 가상 메모리를 통해 저사양 기기에서도 끊김 없이 구현할 수 있게 합니다.
Spark 2.0↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
10
연구 논문에서 4B 모델이 70B 모델을 이겼습니다.
비정형 연구 논문(PDF)을 구조화된 '스킬 파일'로 변환하는 도구인 SkillForge를 통해, 4B 규모의 소형 모델(SLM)이 70B 대형 모델보다 더 정밀한 정보를 추출할 수 있음을 증명한 사례를 소개합니다. 이는 모델의 크기보다 데이터의 구조화된 전처리가 답변의 정확도와 비용 효율성에 더 결정적인 역할을 할 수 있음을 시사합니다.
I tested a 4B model vs a 70B model on research papers. The 4B model won↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
11
Reka Edge: Physical AI 시대를 여는 7B 초고효율 VLM 분석
Reka Edge는 Physical AI 구현을 위해 설계된 7B 규모의 고효율 Vision Language Model(VLM)입니다. ConvNeXt V2 인코더를 통해 이미지 처리 토큰 사용량을 3배 절감하며, 초저지연 성능을 통해 실시간 영상 분석 및 객체 탐지를 가능하게 합니다.
Reka Edge↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
12
Fathom 3.0 출시: 회의록을 넘어 AI 지식 관리 플랫폼으로
Fathom 3.0은 단순한 AI 회의록 작성을 넘어, 봇 없이도 회의를 캡처하고 Claude 및 ChatGPT와 연동하여 회의 데이터를 지식 자산으로 변환하는 지능형 미팅 플랫폼으로 진화했습니다. 계정 전체에 걸친 AI 검색과 실시간 요약 기능을 통해 회의의 가치를 극대화하는 데 집중하고 있습니다.
Fathom 3.0↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
13
TwelveLabs의 페가수스 1.5
TwelveLabs가 비디오를 구조화된 타임스탬프 메타데이터로 변환하는 'Pegasus 1.5'를 출시했습니다. 사용자가 정의한 스키마에 따라 최대 2시간 분량의 영상을 쿼리 가능한 데이터 자산으로 변환하며, 이미지 기반의 멀티모달 검색 기능도 제공합니다.
Pegasus 1.5 by TwelveLabs↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
14
이론에서 증거로: 대규모 데이터 품질 검증을 위한 Shannon Entropy의 유효성 확인
이 기사는 대규모 데이터 품질 검증을 위해 Shannon Entropy(샤논 엔트로피)를 활용하는 방법론이 기존의 규칙 기반(Rule-based) 또는 통계적(KS-test) 방식보다 월등히 효과적임을 실험으로 증명합니다. 약 660만 건의 데이터를 대상으로 한 실험 결과, 엔트로피 기반 방식은 데이터 드리프트 탐지에서 오탐률 0%를 기록했으며, 기존 방식보다 최대 2.12배 빠른 처리 속도를 보여주었습니다.
From Theory to Evidence: Validating Shannon Entropy for Data Quality at Scale↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
15
Google, Chrome에 "Skills" 도입해 Gemini 프롬프트 즉시 재사용 가능하게 합니다
구글 크롬이 Gemini 프롬프통을 저장하고 클릭 한 번으로 즉시 실행할 수 있는 'Skills' 기능을 도입합니다. 이 기능은 반복적인 브라우징 작업을 자동화하여 사용자가 별도의 프롬프트 입력 없이도 웹 페이지 요약, 데이터 비교 등의 AI 작업을 효율적으로 수행할 수 있게 돕습니다.
Google introduces "Skills" in Chrome to make Gemini prompts instantly reusable↗arstechnica.com
Ars Technica1개월 전공공지능 분석AI 모델
16
Google, Chrome에 AI 기능 추가… 즐겨 사용하는 워크플로우 저장 지원
구글이 크롬 브라우저에 사용자가 자주 사용하는 AI 프롬프트를 저장하고 재사용할 수 있는 'Skills' 기능을 도입합니다. 이 기능은 Gemini AI와 통합되어 웹 페이지의 정보를 요약하거나 특정 작업을 자동화하는 등 개인화된 AI 워크플로우를 브라우저 내에서 즉시 실행할 수 있게 돕습니다.
Google adds AI Skills to Chrome to help you save favorite workflows↗techcrunch.com
TechCrunch1개월 전공공지능 분석AI 모델
17
다게노 AI
Dageno AI는 7개 이상의 주요 LLM(대규모 언어 모델)에서 브랜드의 노출도를 추적하고 최적화하는 GEO(Generative Engine Optimization, 생성형 엔진 최적화) 플랫폼입니다. 웹사이트, 트래픽, 소셜 미디어 등 다양한 데이터를 분석하여 AI 답변 내 브랜드 가시성 격차를 찾아내고, 에이전트 기반의 자동화된 워크플로우를 통해 이를 개선하는 솔루션을 제공합니다.
Dageno AI↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
18
비인간 ID 보호: 자동 해지, OAuth, 그리고 범위 기반 권한 부여
Cloudflare가 AI 에이전트 및 자동화 도구와 같은 '비인간 ID(Non-human identities)'를 보호하기 위한 새로운 보안 기능을 발표했습니다. GitHub와의 파트너십을 통한 토큰 자동 해지, OAuth 가시성 확보, 그리고 세분화된 권한 부여(RBAC)를 통해 AI 시대의 새로운 보안 위협에 대응합니다.
Securing non-human identities: automated revocation, OAuth, and scoped permissions↗blog.cloudflare.com
Cloudflare Blog1개월 전공공지능 분석AI 모델
19
MCP 도입 확장을 위한 레퍼런스 아키텍처: 더 간단하고 안전하며 저렴한 엔터프라이즈 MCP 배포
Cloudflare는 기업 내 AI 에이전트 워크플로우 확산을 위해 MCP(Model Context Protocol)를 안전하고 저렴하게 배포할 수 있는 레퍼런스 아키텍처를 공개했습니다. 로컬 MCP 서버의 보안 취약점을 해결하기 위해 중앙 집중형 원격 MCP 서버 구조를 채택하고, 인증 및 비용 관리 기능을 통합하여 엔터프라이즈급 AI 거버넌스를 구축하는 전략을 제시합니다.
Scaling MCP adoption: Our reference architecture for simpler, safer and cheaper enterprise deployments of MCP↗blog.cloudflare.com
Cloudflare Blog1개월 전공공지능 분석AI 모델
20
긱플레어 스크래핑 API v2
긱플레어(Geekflare)가 AI 에이전트와 RAG(검색 증강 생성) 환경에 최적화된 '스크래핑 API v2'를 출시했습니다. 이번 업데이트는 웹 데이터에서 불필요한 요소를 제거한 특화된 출력 형식을 제공하여, LLM 토큰 비용을 최대 85%까지 절감하는 것을 목표로 합니다.
Geekflare Scraping API v2↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
21
Portt: AI 기반의 API 검색 및 관리 플랫폼 출시
Portt는 단순한 얼굴 교체나 필터 적용을 넘어, 사진 속의 건축물, 패션, 질감 등 장면 전체를 특정 시대로 재구성하는 AI 기반 사진 편집 플랫폼입니다. 사용자는 기원전 3000년부터 서기 2050년까지 원하는 시대를 선택하여 사진을 역사적 또는 미래적 맥락으로 완전히 탈바꿈시킬 수 있습니다.
Portt↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
22
Claude, 비행기 조종 가능할까?
Claude가 X-Plane 12 시뮬레이터를 활용해 직접 비행기를 조종하며 물리적 환경과 상호작용하는 실험을 진행했습니다. 비행 중 발생하는 데이터 지연과 제어 로직의 부재로 인해 추락을 경험했으나, AI가 스스로 코드를 수정하며 문제를 해결하려는 과정은 AI 에이전트의 자율적 문제 해결 능력을 보여주는 중요한 사례입니다.
Can Claude Fly a Plane?↗so.long.thanks.fish
Hacker News1개월 전공공지능 분석AI 모델
23
내성적 확산 언어 모델
I-DLM(Introspective Diffusion Language Model)은 기존 확산 언적 모델(DLM)의 고질적인 문제인 품질 저하를 '내성적 일관성(Introspective Consistency)' 확보를 통해 해결한 혁신적인 모델입니다. 이를 통해 기존 AR(Autoregressive) 모델 수준의 성능을 유지하면서도, 고동시성 환경에서 추론 처리량(Throughput)을 최대 4.1배까지 끌어올리는 데 성공했습니다.
Introspective Diffusion Language Models↗introspective-diffusion.github.io
Hacker News1개월 전공공지능 분석AI 모델