DAIVE 개요

최종 수정: 2026. 1. 16.

DAIVE란 무엇인가

DAIVE(Diagnostic AI for Virtual Environments)는 Skuber+ Client에 내장된 AI 어시스턴트입니다.
자연어로 Kubernetes 클러스터를 관리하고, 복잡한 SRE 업무를 자동화할 수 있습니다.

스크린샷 2026-01-16 오후 3.01.30.png

DAIVE AI 패널 화면

ℹ️ 정보: DAIVE의 핵심 가치

DAIVE는 단순한 챗봇이 아닙니다. Kubernetes 전문 지식과 실시간 클러스터 데이터를 결합하여
실제로 작업을 수행할 수 있는 실행형 AI 어시스턴트입니다.


주요 기능: DAIVE가 할 수 있는 일

DAIVE는 다음과 같은 10가지 핵심 기능을 제공합니다:

  1. 클러스터 상태 진단 - 노드, Pod, 서비스의 상태를 실시간으로 분석
  2. 로그 분석 및 검색 - 여러 Pod의 로그를 통합 검색하고 패턴 분석
  3. 메트릭 조회 및 해석 - CPU, 메모리, 네트워크 메트릭을 자연어로 조회
  4. Helm 차트 관리 - 차트 검색, 설치, 업그레이드, 롤백 수행
  5. 리소스 스케일링 - Deployment, StatefulSet의 replicas 조정
  6. 배포 관리 - 롤아웃 상태 확인, 롤백, 재시작 수행
  7. 트러블슈팅 자동화 - 문제 원인 분석 및 해결책 제안
  8. YAML 생성 및 검증 - 리소스 YAML 자동 생성 및 문법 검증
  9. 보안 검사 - RBAC, NetworkPolicy, Pod Security 검토
  10. 비용 최적화 제안 - 리소스 사용량 분석 및 최적화 권장

DAIVE 주요 기능 개요

DAIVE 주요 기능 개요


10가지 AI Tools

DAIVE는 내부적으로 다음 10개의 특화된 도구를 사용합니다:

도구 기능 사용 예시
kubectl-executor kubectl 명령 실행 nginx Pod 상태 확인해줘
helm-manager Helm 차트 관리 prometheus 차트 설치해줘
log-analyzer 로그 검색 및 분석 api-server 에러 로그 보여줘
metric-querier Prometheus 메트릭 조회 최근 1시간 CPU 사용량 그래프
resource-describer 리소스 상세 정보 조회 nginx Deployment 상태 알려줘
yaml-generator YAML 매니페스트 생성 Redis StatefulSet YAML 만들어줘
scaler 리소스 스케일링 api-server 3개로 늘려줘
rollout-controller 배포 관리 마지막 배포 롤백해줘
diagnostician 문제 진단 Pod가 왜 Pending인지 알려줘
security-auditor 보안 검사 default 네임스페이스 보안 점검해줘

SRE 진단 루프

DAIVE는 4단계 SRE 진단 루프를 자동으로 수행합니다:

 감지 (Detect) →  분석 (Analyze) →  제안 (Suggest) →  실행 (Execute) → 감지

각 단계 설명

단계 설명 예시
감지 (Detect) 이상 징후 및 문제 자동 감지 CrashLoopBackOff 상태 Pod 발견
분석 (Analyze) 로그, 메트릭, 이벤트 종합 분석 OOM 에러로 인한 재시작 확인
제안 (Suggest) 해결책 및 조치 방안 제안 메모리 limit 증가 권장
실행 (Execute) 사용자 승인 후 자동 조치 YAML 수정 및 적용

제한사항

DAIVE 사용 시 다음 제한사항을 인지하세요:

** 주의: 주의사항**

DAIVE는 강력한 도구이지만, 프로덕션 환경에서는 항상 HITL(Human-in-the-Loop) 승인 모드를 활성화하세요.

기술적 제한

  • 클러스터 접근 권한: DAIVE는 연결된 kubeconfig의 RBAC 권한 범위 내에서만 작동합니다
  • 실시간 데이터: 메트릭은 Prometheus/Metrics Server가 설치된 클러스터에서만 조회 가능합니다
  • 응답 지연: 복잡한 분석 요청은 수 초에서 수십 초가 소요될 수 있습니다
  • 컨텍스트 제한: 단일 세션에서 처리할 수 있는 데이터량에 제한이 있습니다

운영적 제한

  • 위험한 작업 제한: delete, drain, cordon 등 위험한 명령은 기본적으로 승인 필요
  • 네임스페이스 범위: 한 번에 하나의 네임스페이스 컨텍스트에서 작업
  • 다중 클러스터: 클러스터 간 비교나 동시 작업은 지원하지 않음
  • 오프라인 사용: AI 기능은 인터넷 연결이 필요합니다