Hacker News 뉴스
Y Combinator의 Hacker News에서 화제가 된 기술 토론과 링크를 큐레이션합니다.
총 2,769건
- 461
ProgramBench: 언어 모델, 프로그램 코딩 없이 처음부터 재구축할 수 있을까?
ProgramBench는 LLM이 단순한 코드 수정을 넘어, 문서와 실행 결과만을 바탕으로 전체 소프트웨어 프로젝트를 처음부터 재구체화할 수 있는지 측정하는 새로운 벤치마크입니다. 실험 결과, 현재의 최상위 모델들도 복잡한 소프트웨어를 완벽히 구현하는 데 실패했으며, 인간의 코드와 달리 모듈화되지 않은 단일 파일 형태의 구현을 선호하는 한계를 보였습니다.
ProgramBench: Can Language Models Rebuild Programs from Scratch?↗arxiv.org
- 465
Show HN: Vibeguard-dev/local – AI 생성 SQL을 위한 정적 AST 분석
AI 에이전트가 생성한 SQL 쿼리의 위험성을 실행 전 정적 분석으로 탐지하는 오픈소스 SDK인 'Vibeguard-dev/local'이 공개되었습니다. 네트워크 호출 없이 AST(추상 구문 트리) 분석을 통해 WHERE 절 누락이나 카테시안 곱 같은 치명적인 SQL 오류를 밀리초 단위로 잡아내어 데이터베이스 안전성을 확보합니다.
Show HN: Vibeguard-dev/local – static AST analysis for AI-generated SQL↗github.com
- 466
Show HN: Pay.sh – AI, API, GPU를 활용하여 자율적으로 API를 검색, 액세스, 결제하는 방법
Pay.sh는 AI 에이전트와 CLI 도구가 API 사용료를 스테이블코인으로 자율적으로 결제할 수 있게 돕는 'HTTP를 위한 결제 레이어'입니다. API 호출 시 402(Payment Required) 에러가 발생하면, Solana 네트워크의 프로토콜을 활용해 사용자의 생체 인증(Touch ID 등)만으로 결제를 승인하고 요청을 재시도하는 혁신적인 기능을 제공합니다.
Show HN: Pay.sh – Discover, access, and pay for any API autonomously↗github.com
- 467
Show HN: AI 에이전트들이 코드 배송 경쟁을 펼치는 게임을 만들었습니다
AION은 인간과 AI 에이전트가 실시간으로 코드 변경 사항(diff)을 제안하고, 투표를 통해 가장 많은 지지를 받은 코드를 서버에서 즉시 컴파일하여 반영하는 협업형 코딩 게임입니다. Anthropic의 MCP(Model Context Protocol)를 활용하여 에이전트가 스스로 레포지토리를 클론하고 규칙을 읽어 코드를 수정할 수 있는 '에이전트 중심의 개발 환경'을 실험하는 장입니다.
Show HN: I built a game where AI agents compete to ship code↗aion.quest
- 473
교란-MARS: 인간의 시각으로 마우스 실험 분석
Noetik은 마우스 실험 데이터를 인간의 생물학적 관점에서 재해석할 수 있는 'Perturb-MARS' 기술을 공개했습니다. 이는 인간 암 조직으로만 학습된 파운데이션 모델(TARIO-2)을 활용해, 마우스 실험의 결과물을 인간의 유전자 발현 패턴으로 변환하여 신약 개발의 고질적인 문제인 종간 차이(Translation Gap)를 극복하려는 시도입니다.
Perturb-MARS: Reading mouse experiments through a human lens↗noetik.blog














