AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 33 페이지
- 4
Show HN: LLM의 컨텍스트 손실 없이 민감 데이터 익명화하기
클라우드 LLM을 보안 관제에 활용할 때 발생하는 데이터 유출 문제를 해결하기 위해, 데이터의 문맥(Context)을 유지하면서 민감 정보만 익명화하는 '프록시 레이어' 구축 과정을 다룹니다. 단순한 데이터 삭제를 넘어, IP의 네트워크 특성이나 도메인의 구조적 특징을 보존하여 LLM의 보안 추론 능력을 저하시키지 않는 기술적 돌파구를 제시합니다.
Show HN: Pseudonymizing sensitive data for LLMs without losing context↗atticsecurity.com
- 5
Show HN: Tier – 소규모 LLM의 정확도를 10pt 향상시키는 적응형 도구 라우팅
Tier는 AI 에이전트의 모델 크기에 따라 도구(Tool)의 설명과 파라미터를 최적화하여 전달하는 적응형 라우팅 솔루션입니다. 소규모 LLM(SLM)이 너무 많은 도구 정보에 노출되어 발생하는 성능 저하 문제를 해결하여, 작은 모델에서도 정확도를 최대 10%p 높이고 토큰 사용량을 최대 97% 절감합니다.
Show HN: Tier – Adaptive tool routing that makes small LLMs 10pt more accurate↗github.com
- 10
이번 달 출시된 AI 테스트, 완전히 다른 문제를 해결한다.
최근 등장한 AI 테스트 기술들은 보안 취약점 점검(Lovable)과 코드 단위 버그 탐지(Meta)라는 서로 다른 영역을 다루고 있습니다. 하지만 정작 사용자가 겪는 결제 오류와 같은 '사용자 여정(User Journey)'의 결함은 여전히 사각지대로 남아있어, 기술의 용도에 따른 명확한 구분이 필요합니다.
Two kinds of AI testing shipped this month. They solve completely different problems.↗dev.to
- 17
Show HN: Memwright – 멀티 에이전트 팀을 위한 자체 호스팅 메모리, LLM 우회
Memwright는 멀티 에이전트 시스템의 고질적인 문제인 '기억 상실'과 '비용 효율성 저하'를 해결하기 위한 자체 호스팅 메모리 인프라입니다. LLM을 거치지 않는 결정론적 검색과 토큰 예산 관리를 통해, 에이전트 간의 지식 연속성을 보장하고 프롬프트 비대화를 방지하는 구조적 솔루션을 제공합니다.
Show HN: Memwright – Self-hosted memory for multi-agent teams, no LLM in path↗github.com
- 18
exp-minus-log로 표현할 수 없는 초등함수는 모두가 아니다
최근 인터넷에서 화제가 된 'exp-minus-log(EML) 연산자 하나로 모든 초등함수를 표현할 수 있다'는 논문에 대해, 해당 주장이 매우 제한된 정의 하에서만 유효하며 표준적인 수학적 정의(다항식의 거듭제곱근 포함)에서는 성립하지 않는다는 비판적 분석입니다. 저자는 위상 갈루아 이론(Topological Galois Theory)을 근거로 EML 연산자가 가진 표현력의 한계를 명확히 짚어냅니다.
Not all elementary functions can be expressed with exp-minus-log↗stylewarning.com
- 20
AI의 신뢰도 점수가 거짓말하는 이유: Grounded Calibration과 Self-Assessment 비교
AI 에이전트의 자기 평가(Self-Assessment)는 구조적 편향으로 인해 신뢰할 수 없으며, 이를 해결하기 위해서는 테스트 결과나 코드 변경 사항 같은 결정론적 증거를 활용한 'Grounded Calibration'이 필수적입니다. AI의 주관적 확신과 객관적 지표 사이의 격차를 측정함으로써 AI 시스템의 진정한 신뢰도를 확보할 수 있습니다.
Grounded Calibration vs Self-Assessment: Why Your AI's Confidence Score Is Lying↗dev.to

















