Dev.to DevOps
원문 사이트 ↗Dev.to DevOps 섹션은 인프라·CI/CD·컨테이너·모니터링 등 DevOps 실무 콘텐츠가 모이는 카테고리로, Kubernetes, Terraform, Docker, 옵저버빌리티 도구 사용기와 사례 연구가 풍부합니다. 한국 SRE·DevOps 엔지니어에게 글로벌 도구 트렌드 학습 자료로 추천합니다.
Dev.to DevOps 주요 토픽
Dev.to DevOps 관련 글 — 44 페이지
- 0
과일 바구니" 문제: PayFit 플랫폼의 신뢰 및 일치 재구축
PayFit는 파편화된 4~5개의 플랫폼 팀을 하나의 '내부 개발자 플랫폼(IDP)' 팀으로 통합하여 개발자 경험을 혁신했습니다. 단순한 도구 제공(Fruit Basket)을 넘어, 개발자가 별도의 작업 없이 즉시 사용할 수 있는 통합된 경험(Fruit Salad)을 제공하는 'Platform as Product' 전략을 통해 개발 생산성을 높였습니다.
The "Fruit Basket" problem: Rebuilding PayFit's platform trust & alignment↗dev.to
- 2
CI/CD 파이프라인이 작동하기까지 11번의 실패: VibeCoder의 Expo + GitHub Actions + DeployGate 활용 가이드
AI를 활용해 코딩하는 'VibeCoder'가 Expo와 GitHub Actions를 이용해 비용 효율적인 iOS 배포 파이프라인을 구축하며 겪은 11번의 시행착오와 해결 과정을 다룹니다. 코드 작성보다 테스터에게 빌드를 전달하는 '라스트 마일(Last Mile)'의 병목 현상을 해결하기 위해 자가 호스팅 러너를 활용한 자동화 전략을 제시합니다.
11 Failures Before My CI/CD Pipeline Worked: A VibeCoder's Guide to Expo + GitHub Actions + DeployGate↗dev.to
- 3
LLM 서빙 최적화: vLLM과 NVLink의 엔지니어링적 진실
LLM 서빙 최적화를 위해서는 단순한 모델 배포를 넘어 NVLink 대역폭, GPU 발열 관리, 스토리지 병목 등 하드웨어의 물리적 한계를 이해하는 엔지니어링 접근이 필수적입니다. vLLM의 PagedAttention과 같은 소프트웨어 기술을 하드웨어 환경에 맞춰 정밀하게 튜닝함으로써, 서비스의 응답 속도(Latency)와 운영 비용(ROI)을 극대화할 수 있습니다.
Optimizing LLM Serving: The Engineering Truth of vLLM & NVLink↗dev.to
- 4
CI/CD 파이프라인에서 스마트 컨트랙트 보안 자동화하기
"배포 전에 잠깐만 검사할게요"라는 생각, 이것이 문제다 보안 점검을 배포 직전에만 진행하면 다음과 같은 문제가 발생한다: * 마지막 순간에 취약점이 발견되어 수정 비용이 급등한다 * 코드 리뷰 과정에서 사람이 보안 문제를 잡아내도록 의존한다 * "빠른 수정"을 위해 보안 점검을 생략한다 * 취약점이 메인 브랜치에 병합된다 반면, CI/CD에 보안 점검을 자동 통합하면 모든 PR에서 취약점을 조기에 발견하고, 심각한 문제가 있을 경우 병합을 차단할 수 있다.
Automating Smart Contract Security in Your CI/CD Pipeline↗dev.to
- 8
IPI-Scanner: LLM이 읽기 전에 간접 프롬프트 인젝션 공격을 탐지하다
RAG 및 AI 에이전트 시스템의 치명적인 보안 위협인 '간접 프롬프트 주입(Indirect Prompt Injection)'을 사전에 탐지하는 오픈소스 보안 도구, IPI-Scanner에 대한 분석입니다. 데이터 파이프라인에 숨겨진 악성 명령어를 식별하여 LLM의 데이터 유출 및 권한 오남용을 방지하는 기술적 메커니즘을 다룹니다.
IPI-Scanner: Detecting Indirect Prompt Injection Attacks Before Your LLM Reads Them↗dev.to
- 14
LLM 제공업체가 프로덕션 도중 유스케이스 사용을 금지할 때 벌어지는 일
40,000개의 tool이 production에서 운영 중이던 OpenClaw가 Claude로부터 차단되었습니다. 사전 경고도, 유예 기간도 없이, 단지 policy enforcement만으로 그들의 전체 inference pipeline이 중단되었습니다. 유사한 시스템을 운영하는 사람들이 느끼는, 예상 가능한 schadenfreude와 공포가 뒤섞여 Hacker News 스레드가 들썩이는 것을 지켜보았습니다. 이것은 edge case가 아닙니다. Anthropic, OpenAI, 그리고 모든 LLM provider는 약관을 변경하거나, capacity를 throttle하거나, 혹은 use case를 완전히 차단할 권리를 보유하고 있습니다. production traffic을 처리할 때는,
What Happens When Your LLM Provider Bans Your Use Case Mid-Production↗dev.to
- 15
CI Pipeline은 3개의 언어를 검증하지만, Codebase는 11개를 사용하고 있습니다.
지난 화요일, 한 Terraform module이 CI를 통과하고 code review를 거쳐 main에 merge되었지만, 누군가 version 0.12의 deprecated syntax를 사용하는 바람에 곧바로 세 개의 environments가 깨져버렸습니다. CI system은 terraform validate를 전혀 실행하지 않았습니다. 왜 그랬을까요? platform에 Terraform runner가 preconfigured되어 있지 않았고, 아무도 이를 어떻게 추가하는지 알아내는 데 90분을 쓸 여유가 없었기 때문입니다. 한편, 여러분의 팀은 production에서 11개의 서로 다른 language stacks를 운영하고 있습니다. 하지만 여러분의 CI platform은 그중 3개만 out of the box로 지원합니다. 이
Your CI Pipeline Validates Three Languages While Your Codebase Uses Eleven↗dev.to
- 16
2026년 데이터 센터 팀들이 Cisco ACI보다 NX-OS VXLAN EVPN을 더 많이 선택하는 이유
지난 화요일, training run 중에 새로운 GPU node가 MLflow registry에 접속하지 못하는 문제를 troubleshooting하느라 4시간을 보냈습니다. ACI fabric은 endpoint가 학습되었다고 보고하고 있었고, policy contract도 permit 상태였습니다. 하지만 packets는 leaf switches 사이 어딘가에서 아무런 징후 없이 사라졌습니다. 근본 원인은 무엇이었을까요? 바로 APIC controller가 reconcile하지 못한 COOP database의 stale endpoint entry였습니다. 저는 abstraction layer를 완전히 우회하여 CLI에서 endpoint를 clearing함으로써 문제를 해결했습니다. 그 사건은 무언가를 명확하게 해주었습니다...
Why More Data Center Teams Are Choosing NX-OS VXLAN EVPN Over Cisco ACI in 2026↗dev.to
- 17
Shadow Deployments: 드러난 실제 위험
Shadow Deployment를 맹목적으로 따라 하지 마세요: Production을 망가뜨리는 것을 직접 보았습니다. 우리는 속아 왔습니다. 엔지니어들은 공짜 점심을 좋아하며, Shadow Deployment는 최고의 마케팅 문구입니다: "리스크 제로로 실제 Production traffic으로 테스트하세요!" 마법처럼 들립니다. Traffic을 mirror하고 Response를 drop하면, 새로운 version이 어둠 속에서 스스로 검증되는 동안 여러분은 아주 편하게 잠을 잘 수 있습니다. 하지만 현실은 이렇습니다. 여러분의 Shadow Deployment는 아마도 시한폭탄일 것이며, 저는 팀들이 ~하는 것을 보는 것에 지쳤습니다.
Shadow Deployments: Real Risks Exposed↗dev.to
- 19
Anthropic, npm에 Claude Code 소스 코드 513K줄 실수로 공개 — 개발자가 알아야 할 사항
Anthropic의 Claude Code 소스 코드 51만 3천 줄이 npm 배포 실수로 유출되었으며, 이와 동시에 axios 패키지에 대한 공급망 공격이 발생했습니다. 이번 사건은 AI 에이전트의 핵심 아키텍처 노출과 함께 원격 코드 실행(RCE) 및 API 키 탈취라는 심각한 보안 위협을 초래했습니다.
Anthropic Accidentally Published 513K Lines of Claude Code Source on npm — What Developers Need to Know↗dev.to
- 20
장애 관리: 효과적인 On-Call 로테이션 및 Runbook 구축
서비스 신뢰도를 결정짓는 장애 관리의 핵심은 개인의 영웅적 활약이 아닌, 체계적인 온콜(On-call) 로테이션과 실행 가능한 런북(Runable) 구축에 있습니다. 지속 가능한 운영을 위해 알람 피로도를 줄이고, 장애 발생 시 명확한 역할 분담과 비난 없는 사후 분석(Blameless Post-mortem) 문화를 정착시켜야 합니다.
Incident Management: Building Effective On-Call Rotations and Runbooks↗dev.to









