AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 37 페이지
- 2
우리가 연방준비제도 벤치마크를 능가하는 제재 심사 API를 구축한 방법
Verifex는 기존 제재 스크리닝 도구의 고질적인 문제인 높은 오탐률(90-95%)을 해결하기 위해, 미 연준(Fed)의 GPT-4o 기반 벤치마크(98.9LL% F1)를 뛰어넘는 100% 정확도를 달성했습니다. 9가지 페널티 레이어와 하이브리드 매칭 파이프라인을 결합하여 다국어 및 복잡한 변형 패턴을 정밀하게 탐지하는 기술적 혁신을 보여주었습니다.
How we built a sanctions screening API that outperformed the Federal Reserve's benchmark↗dev.to
- 5
AI 모델은 축구 경기 예측에 엉망진창이다—특히 xAI Grok
최첨단 AI 모델들이 프리미어리그 시즌을 가정한 축구 베팅 실험에서 모두 수익 창출에 실패하며, 복잡하고 변동성이 큰 현실 세계의 문제를 해결하는 데 한계가 있음이 드러났습니다. 이번 'KellyBench' 보고서는 AI의 코딩 및 작문 능력과 달리, 장기적인 예측과 리스크 관리가 필요한 동적 환경에서는 AI의 성능이 매우 취약할 수 있음을 시사합니다.
AI models are terrible at betting on soccer—especially xAI Grok↗arstechnica.com
- 6
Show HN: Lmscan – AI 텍스트 감지 및 작성 LLM 식별 도구 (별도 의존성 없음)
lmscan은 별도의 API나 GPU 없이 로컬 환경에서 실행 가능한 오픈소스 AI 텍스트 탐지 및 LLM 지문 인식 도구입니다. 통계적 언어학 지표를 활용해 텍스트의 AI 생성 여부를 판별할 뿐만 아니라, GPT-4, Claude, Gemini 등 어떤 모델이 작성했는지까지 식별해냅니다.
Show HN: Lmscan – Detect AI text and fingerprint which LLM wrote it (zero deps)↗github.com
- 7
인간과 기계 논리의 간극을 좁히는, 수학적으로 압축된 방언: 영어 재구성
Englicode는 인간과 AI 사이의 의사소통 오류를 줄이기 위해 설계된, 수학적으로 압축된 새로운 영어 방언입니다. 모호한 자연어를 정밀한 수치와 프로토콜(Bandwidth, Time Index, Certainty)로 변환하여, 인간의 의도를 기계가 즉각적으로 이해할 수 있는 구조화된 데이터 형태로 재정의합니다.
Refactoring English: A mathematically compressed dialect to bridge the gap between human and machine logic.↗dev.to
- 13
분산 AI에서 아무도 이야기하지 않는 스케일링 법칙
기존 AI 스케일링 법칙이 모델 크기와 데이터 양에 집중했다면, 이 글은 분산된 연구 환경에서 지능이 폭발적으로 성장할 수 있는 새로운 법칙인 '합성 경로(Synthesis Paths)'를 제시합니다. 핵심은 모델 가중치를 공유하는 기존 연합 학습(Federated Learning)의 한계를 넘어, 초경량 '결과 패킷(Outcome Packet)'을 통해 비용은 로그 단위로 낮추고 지능은 이차 함수적으로 늘리는 QIS(Quadratic Intelligence Swarm) 아키텍처입니다.
The Scaling Law Nobody in Distributed AI Is Talking About↗dev.to
- 14
QIS 프로토콜, 증명 가능하게 불가능한가? 왜 야오 통신 복잡도 경계가 Quadratic Intelligence Swarm에 적용되지 않는가?
QIS(Quadratic Intelligence Swarm) 프로토콜은 통신 비용을 $O(\log N)$ 수준으로 유지하면서도 네트워크 내 지능을 $N^2$에 비례하여 확장할 수 있다고 주장합니다. 이 기사는 야오(Yao)의 통신 복잡도 이론이 왜 QIS의 아키텍처에는 적용되지 않는지를 '로컬 증류(Local Distillation)'와 '의미론적 라우팅(Semantic Routing)'이라는 핵심 메커니즘을 통해 논리적으로 반박합니다.
Is QIS Protocol Provably Impossible? Why Yao Communication Complexity Bounds Do Not Apply to Quadratic Intelligence Swarm↗dev.to
- 15
나조차도 읽을 수 없는 백업 도구를 만들었습니다: AI, API, GPU 활용 데이터베이스 백업 가이드
PGArchive는 개발자조차 백업 데이터에 접근할 수 없는 '제로 지식(Zero-knowledge)' 방식의 데이터베이스 백업 솔루션입니다. 서버 내에서 직접 AES-256-GCM으로 암호화한 뒤 사용자의 S3나 Cloudflare R2로 직접 업로드하여, 데이터 프라이버시와 백업 무결성을 동시에 보장합니다.
I built a database backup tool where even I can't read your backups↗dev.to
- 17
LLM, 구조화된 "스마트 센스"를 활용해 8비트 Commander X16 게임 플레이
GPT-4o와 같은 LLM이 8비트 게임을 플레이하기 위해 시각적 데이터 대신 '스마트 센스(Smart Senses)'라는 구조화된 텍스트 데이터를 활용하는 혁신적인 접근법을 소개합니다. 이 방식은 복잡한 환경을 추상화된 정보로 변동하여 LLM의 추론 효율을 극대화하고 비용을 절감하는 새로운 AI 에이전트 설계 방향을 제시합니다.
LLM plays an 8-bit Commander X16 game using structured "smart senses"↗pvp-ai.russell-harper.com
- 21
LLM 서빙 최적화: vLLM과 NVLink의 엔지니어링적 진실
LLM 서빙 최적화를 위해서는 단순한 모델 배포를 넘어 NVLink 대역폭, GPU 발열 관리, 스토리지 병목 등 하드웨어의 물리적 한계를 이해하는 엔지니어링 접근이 필수적입니다. vLLM의 PagedAttention과 같은 소프트웨어 기술을 하드웨어 환경에 맞춰 정밀하게 튜닝함으로써, 서비스의 응답 속도(Latency)와 운영 비용(ROI)을 극대화할 수 있습니다.
Optimizing LLM Serving: The Engineering Truth of vLLM & NVLink↗dev.to
- 22
IPI-Scanner: LLM이 읽기 전에 간접 프롬프트 인젝션 공격을 탐지하다
RAG 및 AI 에이전트 시스템의 치명적인 보안 위협인 '간접 프롬프트 주입(Indirect Prompt Injection)'을 사전에 탐지하는 오픈소스 보안 도구, IPI-Scanner에 대한 분석입니다. 데이터 파이프라인에 숨겨진 악성 명령어를 식별하여 LLM의 데이터 유출 및 권한 오남용을 방지하는 기술적 메커니즘을 다룹니다.
IPI-Scanner: Detecting Indirect Prompt Injection Attacks Before Your LLM Reads Them↗dev.to













