AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

AI 모델 관련 글 — 21 페이지

0
맥락이 전부다
AI의 진정한 가치는 모델의 지능 그 자체가 아니라, 사용자의 과거와 현재를 연결하는 '맥락(Context)'과 '메모리 아키텍처'에 있습니다. 단순한 모델 활용을 넘어, 데이터의 영속성을 확보하여 '나를 아는 AI'를 만드는 인프라 구축이 핵심 경쟁력입니다.
Context Is Everything↗dev.to
Dev.to OpenSource18일 전공공지능 분석AI 모델
1
Show HN: WaveletLM – O(n log n) 스케일링을 가진 웨이블릿 기반, 어텐션 없는 모델
WaveletLM은 기존 트랜스포머의 어텐션 메커니즘을 제거하고 웨이블릿 변환(Wavelet Transform)을 도입하여 시퀀스 길이에 대해 O(n log n)의 효율적인 스케일링을 구현한 새로운 언어 모델 아키텍처입니다. 학습된 리프팅 웨이블릿 분해와 FWHT(Fast Walsh-Hadamard Transform)를 통해 긴 문맥을 매우 효율적으로 처리할 수 있는 가능성을 제시합니다.
Show HN: WaveletLM – wavelet-based, attention-free model with O(n log n) scaling↗github.com
Hacker News Show18일 전공공지능 분석AI 모델
2
Show HN: 생물학적 감쇠를 활용한 AI 메모리 (52% 재현율)
YourMemory는 에빙하우스의 망각 곡선 원리를 활용하여 AI 에이전트에게 인간과 유사한 영구 기억력을 부여하는 새로운 메모리 레이어입니다. 중요한 정보는 유지하고 불필요한 정보는 자연스럽게 삭제하는 생물학적 감쇠 모델을 통해, 기존 솔루션 대비 2배 이상의 높은 정보 재현율(59%)을 달수 있습니다.
Show HN: AI memory with biological decay (52% recall)↗github.com
Hacker News Show18일 전공공지능 분석AI 모델
3
부실한 복사본
최근 AI 기술의 발전으로 인해 기존의 성공적인 서비스를 무단으로 복제하여 가짜 리뷰와 스팸성 콘텐츠로 무장한 '부실한 복사본(Sloppy Copies)'이 급증하고 있습니다. 이는 단순한 기능 모방을 넘어, 봇을 이용한 자동화된 스크래핑과 소셜 미디어 조작을 통해 사용자 신뢰를 훼손하는 새로운 형태의 위협으로 부상하고 있습니다.
Sloppy Copies↗markround.com
Hacker News18일 전공공지능 분석AI 모델
4
당신의 RAG 평가 세트는 아마 틀렸을 겁니다. 이를 잡아내는 테스트가 있습니다.
RAG(검색 증강 생성) 시스템의 성능 지표(Ragas 등)가 높음에도 불구하고 실제 운영 환경에서 서비스가 실패하는 3가지 핵심 원인(데이터 누출, 쿼리 드리프트, 평가 모델 편향)을 분석하고, 이를 방지하기 위한 실무적인 테스트 방법을 제시합니다.
Your RAG Eval Set Is Probably Wrong. The Test That Catches It.↗dev.to
Dev.to AI18일 전공공지능 분석AI 모델
5
미세 조정된 모델, 프롬프트 기반이 아니다: 오펜시브 보안에서 LLM 래퍼를 능가하는 이유
단순히 LLM API를 활용하는 '프롬프트 기반 래퍼' 방식은 보안 분야에서 환각, 프롬프트의 취약성, 학습 루프 부재라는 치명적 한계를 가집니다. 반면, 전문적인 공격 데이터를 통해 모델 가중치에 패턴을 내재화하고 지속적인 학습 루프를 구축한 '미세 조정(Fine-tuned) 모델'이 보안 성능의 핵심 경쟁력이 될 것입니다.
Trained, Not Prompted: Why Fine-Tuned Models Beat LLM Wrappers for Offensive Security↗dev.to
Dev.to AI18일 전공공지능 분석AI 모델
6
VEXT Specialist-7B: 7B 모델이 Frontier AI의 보안 벤치마크를 능가하는 방법
VEXT Specialist-7B는 특정 보안 도메인에 특화된 7B 파라미터 모델로, GPT-4o나 Claude Opus와 같은 거대 모델보다 침투 테스트 및 보안 벤치마크에서 압도적인 성능을 보여줍니다. 3단계 계층형 아키텍처와 고품질의 실제 보안 데이터를 활용하여 추론 비용을 95% 절감하면서도 보안 정확도를 극대화했습니다.
VEXT Specialist-7B: How a 7B Model Beats Frontier AI on Security Benchmarks↗dev.to
Dev.to AI18일 전공공지능 분석AI 모델
7
LLM 응답 전체 캐싱 중단. 임베딩을 캐싱하세요.
LLM 응답 캐싱 시 단순 텍스트 일치 방식은 사용자의 다양한 문장 표현 때문에 적중률이 4%대에 머무는 한계가 있습니다. 반면, 임베딩을 활용한 시맨틱 캐싱은 의미적 유사성을 기반으로 적중률을 60% 이상으로 높일 수 있으며, 임베딩 비용이 생성 비용보다 압도적으로 저렴하기 때문에 매우 경제적인 전략입니다.
Stop Caching the Whole LLM Response. Cache the Embedding.↗dev.to
Dev.to AI18일 전공공지능 분석AI 모델
8
LLM 팀이 내일이면 반드시 설정해야 할 3가지 경고
LLM 서비스 운영 시 발생할 수 있는 비용 폭증, 답변 품질 저하, RAG 검색 실패를 방지하기 위해 반드시 설정해야 할 3가지 핵심 알림(Cost, Quality, Retrieval)과 OpenTelemetry 기반의 관측성(Observability) 구축 전략을 제시합니다.
The 3 Alerts Every LLM Team Should Have Set Up by Tomorrow↗dev.to
Dev.to DevOps18일 전공공지능 분석AI 모델
9
100줄 LLM 캐시, 일주일 만에 투자 비용 회수
막대한 LLM 추론 비용을 절감하기 위해 복잡한 라이브러리 대신 100줄 내외의 가벼운 파이썬 커스텀 캐시를 구현하는 전략을 제시합니다. 프롬프트 접두사 캐싱을 넘어 응답(Response) 자체를 캐싱함으로써, 중복되거나 유사한 요청에 대한 비용을 원천적으로 차단하는 것이 핵심입니다.
The 100-Line LLM Cache That Pays For Itself in a Week↗dev.to
Dev.to AI18일 전공공지능 분석AI 모델
10
OpenAI 서비스 중단 사후 분석: 상태 페이지가 말해주지 않는 것들
OpenAI와 같은 LLM 제공업체의 상태 페이지는 전체적인 가용성만 보여줄 뿐, 실제 사용자가 겪는 미세한 서비스 저하를 포착하지 못합니다. 따라서 개발자는 단순한 API 생존 여부를 넘어 지연 시간, 토큰 처리량, 스키마 검증 성공률 등 5가지 핵심 지표를 직접 모니터링하는 'LLM 관측성(Observability)' 체계를 구축해야 합니다.
OpenAI Outage Postmortem: What Status Pages Don't Tell You↗dev.to
Dev.to DevOps18일 전공공지능 분석AI 모델
11
APL은 영어보다 프랑스어에 더 가깝다
이 글은 프로그래밍을 단순한 '배관 작업(plumbing)'으로 취급하던 기존 방식에서 벗어나, APL 언어를 통해 프로그래밍이 어떻게 예술적이고 표현력 있는 도구가 될 수 있는지를 탐구합니다. 저자는 높은 수준의 추상화가 어떻게 복잡한 알고리즘을 우아하고 간결하게 표현할 수 있는지에 대한 철학적 통찰을 제공합니다.
APL is more French than English↗jsoftware.com
Hacker News18일 전공공지능 분석AI 모델
12
팁: 웹 요청은 헤르츠[Hertz]로 측정해서는 안 됩니다
웹 요청 성능을 측정할 때 주파수 단위인 헤르츠(Hertz)를 사용하는 것이 기술적으로 부적절함을 지적하며, 올로된 성능 지표(Latency, Throughput 등)를 정의하는 것의 중요성을 강조합니다. 잘못된 메트릭 설정이 가져올 수 있는 엔지니어링 측면의 오류를 경고합니다.
Tip: Web requests should not be measured in Hz [Hertz]↗mastodon.catgirl.cloud
Hacker News18일 전공공지능 분석AI 모델
13
프로이센 군사 본부에서 게리 기가렉스의 지하실까지: 여정
체스에서 프로이센의 군사 게임(Kriegsspiel)을 거쳐 D&D에 이르기까지, 게임이 현실의 복잡성을 규칙으로 모델링하며 진화해온 과정을 다룹니다. 기술과 통계의 발전이 어떻게 게임의 정밀도와 시스템 설계를 변화시켰는지 역사적 관점에서 추적합니다.
The route from Prussian military headquarters to Gary Gygax’s basement↗asteriskmag.com
Hacker News18일 전공공지능 분석AI 모델
14
부동소수점 드러내기 – Bartosz Ciechanowski (2019)
이 글은 IEEE 754 부동소수점 방식의 작동 원리를 10진수와 2진수 과학적 표기법을 통해 명쾌하게 설명합니다. 부동소수점의 본질은 유한한 가수(significand)와 지수(exponent) 범위를 가진 2진법 기반의 과학적 표기법임을 강조합니다.
Exposing Floating Point – Bartosz Ciechanowski (2019)↗ciechanow.ski
Hacker News18일 전공공지능 분석AI 모델
15
로컬 LLM을 활용한 다중 에이전트 시스템 관리하기
로컬 LLM이 단순한 벤치마크용을 넘어, 다중 에이전트 시스템(Multi-Agent System)의 상태를 모니터링하고 오류를 관리하는 '슈퍼바이저(Supervisor)'로서 실질적인 역할을 수행할 수 있음을 보여줍니다. 특히 토큰 부족 문제 해결이나 에이전트의 작업 재개 등 특정 관리 작업에서 비용 효율적이고 강력한 성능을 발휘할 수 있습니다.
Supervise a multi-agent setup with Local LLMs↗dev.to
Dev.to OpenSource18일 전공공지능 분석AI 모델
16
Vouch API
Vouch API는 암호화 기술을 활용해 AI의 환각(Hallucination) 문제를 해결하고, 검증 가능한 금융 리서치 데이터를 제공하는 솔루션입니다. SEC XBRL 데이터를 기반으로 DCF 가치 평가 및 몬테카를로 시뮬레이션을 수행하며, 규제 준수가 필수적인 금융 전문가를 타겟으로 합니다.
Product Hunt↗producthunt.com
Product Hunt18일 전공공지능 분석AI 모델
17
LLM 분리 연구 아키텍처가 중요한 이유
LLM의 추론(Reasoning) 기능과 데이터 검색(Retrieval) 기능을 분리하는 'LLM-Decoupled' 아키텍처의 중요성을 다룹니다. 이 구조를 통해 모델 교체나 데이터 소스 업데이트 시 전체 시스템을 재구축할 필요 없이, 유연하고 안정적인 AI 에이전트 인프라를 구축할 수 있습니다.
Why LLM-Decoupled Research Architecture Matters↗dev.to
Dev.to OpenSource18일 전공공지능 분석AI 모델
18
긴 답변
이 기사는 5년 만의 답장, 20년 지속된 사진 프로젝트 등 '지연된 소통'과 '장기적 프로젝트'가 어떻게 예상치 못한 강력한 바이럴과 정서적 울림을 만들어내는지 탐구합니다. 즉각적인 반응이 중시되는 디지털 시대에, 긴 시간을 관통하는 진정성 있는 기록과 연결이 가진 독보적인 가치를 조명합니다.
The Long Reply↗ironicsans.ghost.io
Hacker News19일 전공공지능 분석AI 모델
19
기계 이해를 위한 다각적 맥락 매칭
단순한 벡터 유사도 검색을 넘어, 데이터의 구조적, 관계적, 시간적 맥락을 통합적으로 매칭하는 '다각적 맥락 매칭' 기술이 기계의 이해도를 높이는 핵심으로 부상하고 있습니다. 이는 LLM의 환각 현상을 줄이고 정보 검색의 정확도를 극대화하여, 보다 정교한 AI 에이전트 구현을 가능하게 합니다.
Multi-Perspective Context Matching for Machine Comprehension↗dev.to
Dev.to AI19일 전공공지능 분석AI 모델
20
Show HN: LLM의 영어 교정 능력, 제가 성능을 테스트해봤습니다.
ErrataBench는 LLM의 영어 교정 및 에이전트 능력을 측정하기 위해 설계된 새로운 벤치마크입니다. 단순한 텍스트 생성을 넘어, 모델이 도구(tool)를 사용하여 철자, 문법, 단어 선택 오류를 스스로 찾아내고 수정하는 '에이전트 루프' 성능을 평가합니다.
Show HN: I benchmarked how good LLMs are at proofreading English↗github.com
Hacker News Show19일 전공공지능 분석AI 모델
21
Show HN: GPT/Claude 인용 시 AI 가시성 모니터 - 사이트 언급 추적
이 기사는 ChatGPT, Claude, Perplexity 등 AI 검색 엔진에서의 웹사이트 노출 및 인용 여부를 추적할 수 있는 Python 기반의 오픈소스 툴킷 'AI Visibility Monitor'를 소개합니다. 별도의 유료 SaaS 없이 로컬 환경에서 실행 가능한 이 도구는 AI 시대의 새로운 마케팅 지표인 'AI 인용률'과 'AI 유입 트래픽'을 정밀하게 모니터링할 수 있게 해줍니다.
Show HN: AI Visibility Monitor – Track if your site gets cited by GPT/Claude↗github.com
Hacker News Show19일 전공공지능 분석AI 모델
22
북미 수수 연합(2023)
북미 수수 연합(NAMA)은 기후 변화에 강하고 영양가가 높은 수수(Millets)를 미국, 캐나다, 멕시코 등 북미 전역에 확산시키기 위해 활동하고 있습니다. 수수의 내건성, 저혈당 지수(Low GI), 글루텐 프리 특성을 활용하여 식량 안보와 건강한 식단이라는 두 마리 토끼를 잡는 것을 목표로 합니다.
North American Millets Alliance(2023)↗milletsalliance.org
Hacker News19일 전공공지능 분석AI 모델
23
더 많은 파라미터가 더 중요할까, 더 많은 컴퓨테이션이 더 중요할까? (2021)
본 기사는 딥러닝 모델의 성능을 결정하는 핵심 요소인 '파라미터 수'와 '연산량'을 분리하여 생각할 수 있는 새로운 방법론을 제시합니다. 해시 레이어(Hash Layers)를 통해 연산량 증가 없이 파라미터 규모를 키우는 방법과, 계단식 어텐션(Staircase Attention)을 통해 파라미터 수 증가 없이 연산량을 늘려 성능을 높이는 두 가지 혁신적인 접근법을 다룹니다.
Which one is more important: more parameters or more computation? (2021)↗parl.ai
Hacker News19일 전공공지능 분석AI 모델