데이터 유형: 정형, 반정형, 비정형 데이터

📊 데이터 구조에 따른 분류

데이터
├── 정형 데이터 (Structured Data)
├── 반정형 데이터 (Semi-Structured Data)
└── 비정형 데이터 (Unstructured Data)

1️⃣ 정형 데이터 (Structured Data)

📌 특징

  • 고정된 스키마(행과 열)를 가진 데이터
  • 표 형태로 정리되어 있음
  • 데이터베이스나 스프레드시트에 저장
  • 정량적 분석이 용이
  • 머신러닝에서 가장 다루기 쉬운 형태

💾 저장 형식

  • CSV (Comma-Separated Values)
  • Excel (XLS, XLSX)
  • 관계형 데이터베이스 (MySQL, PostgreSQL, Oracle)
  • TSV (Tab-Separated Values)

📋 실제 예시

이커머스 데이터

상품ID상품명카테고리(대)카테고리(소)판매량금액등록일
1001무선마우스전자제품컴퓨터 주변기기150290002025-01-15
1002키보드전자제품컴퓨터 주변기기120450002025-01-16

고객 데이터

고객ID이름나이성별연락처이메일가입일
C001김철수28010-1234-5678kim@email.com2024-03-10
C002이영희32010-9876-5432lee@email.com2024-05-20

금융(주식) 데이터

날짜종목코드종목명시가종가고가저가거래량
2025-10-12005930삼성전자7200073500740007180015000000

의료 데이터

환자ID이름나이성별혈압심박수혈당콜레스테롤
P001박민수45120/807295180

✅ 장점

  • 검색, 정렬, 필터링이 쉬움
  • SQL 쿼리로 데이터 분석 가능
  • 통계 분석 및 머신러닝 적용 용이
  • 데이터 무결성 보장

❌ 단점

  • 유연성이 낮음
  • 스키마 변경이 어려움
  • 복잡한 데이터 관계 표현에 한계

2️⃣ 반정형 데이터 (Semi-Structured Data)

📌 특징

  • 일정한 구조는 있지만 정형 데이터처럼 엄격하지 않음
  • 태그나 메타데이터로 구조화
  • 스키마가 유연하고 확장 가능
  • 계층적 구조를 가질 수 있음

💾 저장 형식

  • JSON (JavaScript Object Notation)
  • XML (eXtensible Markup Language)
  • HTML
  • YAML
  • 로그 파일

📋 실제 예시

JSON 형식 (API 응답 데이터)

json

{
  "고객ID": "C001",
  "이름": "김철수",
  "나이": 28,
  "연락처": {
    "전화": "010-1234-5678",
    "이메일": "kim@email.com"
  },
  "주문내역": [
    {
      "주문ID": "O001",
      "상품명": "무선마우스",
      "금액": 29000,
      "주문일": "2025-10-10"
    },
    {
      "주문ID": "O002",
      "상품명": "키보드",
      "금액": 45000,
      "주문일": "2025-10-11"
    }
  ]
}

XML 형식 (설정 파일)

xml

<고객>
  <고객ID>C001</고객ID>
  <이름>김철수</이름>
  <나이>28</나이>
  <연락처>
    <전화>010-1234-5678</전화>
    <이메일>kim@email.com</이메일>
  </연락처>
  <주문내역>
    <주문>
      <주문ID>O001</주문ID>
      <상품명>무선마우스</상품명>
      <금액>29000</금액>
    </주문>
  </주문내역>
</고객>

로그 파일 예시

2025-10-12 14:23:45 [INFO] User login: user_id=12345, ip=192.168.1.100
2025-10-12 14:24:10 [WARNING] Failed login attempt: user_id=67890
2025-10-12 14:25:30 [ERROR] Database connection timeout

✅ 장점

  • 유연한 구조 (필드 추가/삭제 용이)
  • 계층적 데이터 표현 가능
  • 다양한 데이터 타입 지원
  • API 통신에 적합

❌ 단점

  • 정형 데이터보다 처리 속도 느림
  • 전처리 과정 필요
  • 저장 공간 많이 차지
  • 복잡한 쿼리 작성 어려움

3️⃣ 비정형 데이터 (Unstructured Data)

📌 특징

  • 고정된 구조가 없는 데이터
  • 사람이 이해하기 쉽지만 컴퓨터가 분석하기 어려움
  • 전체 데이터의 80~90% 차지
  • 딥러닝과 자연어 처리 기술 필요

💾 저장 형식

  • 텍스트: 이메일, 문서, SNS 게시글
  • 이미지: JPG, PNG, GIF
  • 비디오: MP4, AVI, MOV
  • 오디오: MP3, WAV
  • 기타: PDF, PPT

📋 실제 예시

텍스트 데이터

고객 리뷰:
"이 제품 정말 좋아요! 배송도 빠르고 품질도 만족스럽습니다. 
다만 가격이 조금 비싼 것 같아요. 그래도 전반적으로 
추천합니다. ⭐⭐⭐⭐⭐"

소셜 미디어 게시글

오늘 날씨 정말 좋다 ☀️ 
#일상 #데일리 #맑음
친구들이랑 한강 가야지 🎉

이메일

제목: 회의 일정 변경 안내
본문:
안녕하세요, 김대리입니다.
내일 예정된 10시 회의가 오후 2시로 변경되었습니다.
참석 가능 여부 회신 부탁드립니다.
감사합니다.

이미지 데이터

  • 제품 사진
  • 의료 영상 (X-ray, MRI)
  • 얼굴 인식 데이터

비디오/오디오

  • YouTube 영상
  • 고객 상담 녹음 파일
  • CCTV 영상

✅ 장점

  • 풍부한 정보 포함
  • 인간의 의사소통 방식과 유사
  • 감정, 맥락 등 복잡한 정보 표현 가능

❌ 단점

  • 분석이 매우 어려움
  • 대용량 저장 공간 필요
  • 전처리에 많은 시간 소요
  • 특수한 기술(NLP, Computer Vision) 필요

📊 세 가지 데이터 비교표

구분정형데이터반정형데이터비정형데이터
구조고정된 스키마유연한 구조구조없음
형식CSV, DBJSON, XML텍스트, 이미지, 영상
저장관계형 DBNoSQL, 파일파일시스템, 객체저장소
검색매우 쉬움보통매우 어려움
분석SQL파싱 후 분석AI/딥러닝 필요
비율엑셀, 데이터베이스API응답, 로그SNS, 이미지, 동영상

🔄 데이터 변환 과정

비정형 → 반정형 → 정형

예시: 고객 리뷰 분석

1단계: 비정형 데이터

"이 제품 정말 좋아요! 배송도 빠르고 품질도 만족스럽습니다."

2단계: 반정형 데이터 (JSON)

json

{
  "리뷰ID": "R001",
  "내용": "이 제품 정말 좋아요! 배송도 빠르고 품질도 만족스럽습니다.",
  "감정": "긍정",
  "키워드": ["제품", "배송", "품질"],
  "평점": 5
}

3단계: 정형 데이터 (CSV)

리뷰ID고객ID감정평점제품언급배송언급품질언급
R001C001긍정5111

💡 빅데이터 분석기사 시험에서의 활용

작업형2에서 다루는 데이터

  • 정형 데이터: 주로 CSV 파일
  • ⚠️ 반정형/비정형: 거의 출제되지 않음

실무에서의 데이터 처리 흐름

1. 비정형 데이터 수집 (SNS, 리뷰, 이미지)
     ↓
2. 전처리 및 구조화 (반정형으로 변환)
     ↓
3. 정형 데이터로 변환
     ↓
4. 머신러닝 모델 학습 ← 시험에서 다루는 부분
     ↓
5. 예측 및 분석

추가 학습이 필요한 경우

  • 자연어 처리 (NLP): 텍스트 데이터 분석
  • 컴퓨터 비전: 이미지/영상 분석
  • 오디오 처리: 음성 인식, 음악 분석

✅ 핵심 요약

정형 데이터

  • 표 형태, CSV/Excel
  • 머신러닝 적용 쉬움
  • 빅데이터 분석기사 시험 범위

반정형 데이터

  • JSON/XML 형식
  • API 응답, 로그 파일
  • 전처리 후 분석 가능

비정형 데이터

  • 텍스트, 이미지, 영상
  • AI/딥러닝 기술 필요
  • 전체 데이터의 80% 차지

💡 시험 팁: 빅데이터 분석기사 작업형2는 정형 데이터만 다루므로, 정형 데이터 처리에 집중하세요!

Similar Posts