📊 데이터 구조에 따른 분류
데이터
├── 정형 데이터 (Structured Data)
├── 반정형 데이터 (Semi-Structured Data)
└── 비정형 데이터 (Unstructured Data)
1️⃣ 정형 데이터 (Structured Data)
📌 특징
- 고정된 스키마(행과 열)를 가진 데이터
- 표 형태로 정리되어 있음
- 데이터베이스나 스프레드시트에 저장
- 정량적 분석이 용이
- 머신러닝에서 가장 다루기 쉬운 형태
💾 저장 형식
- CSV (Comma-Separated Values)
- Excel (XLS, XLSX)
- 관계형 데이터베이스 (MySQL, PostgreSQL, Oracle)
- TSV (Tab-Separated Values)
📋 실제 예시
이커머스 데이터
| 상품ID | 상품명 | 카테고리(대) | 카테고리(소) | 판매량 | 금액 | 등록일 |
|---|---|---|---|---|---|---|
| 1001 | 무선마우스 | 전자제품 | 컴퓨터 주변기기 | 150 | 29000 | 2025-01-15 |
| 1002 | 키보드 | 전자제품 | 컴퓨터 주변기기 | 120 | 45000 | 2025-01-16 |
고객 데이터
| 고객ID | 이름 | 나이 | 성별 | 연락처 | 이메일 | 가입일 |
|---|---|---|---|---|---|---|
| C001 | 김철수 | 28 | 남 | 010-1234-5678 | kim@email.com | 2024-03-10 |
| C002 | 이영희 | 32 | 여 | 010-9876-5432 | lee@email.com | 2024-05-20 |
금융(주식) 데이터
| 날짜 | 종목코드 | 종목명 | 시가 | 종가 | 고가 | 저가 | 거래량 |
|---|---|---|---|---|---|---|---|
| 2025-10-12 | 005930 | 삼성전자 | 72000 | 73500 | 74000 | 71800 | 15000000 |
의료 데이터
| 환자ID | 이름 | 나이 | 성별 | 혈압 | 심박수 | 혈당 | 콜레스테롤 |
|---|---|---|---|---|---|---|---|
| P001 | 박민수 | 45 | 남 | 120/80 | 72 | 95 | 180 |
✅ 장점
- 검색, 정렬, 필터링이 쉬움
- SQL 쿼리로 데이터 분석 가능
- 통계 분석 및 머신러닝 적용 용이
- 데이터 무결성 보장
❌ 단점
- 유연성이 낮음
- 스키마 변경이 어려움
- 복잡한 데이터 관계 표현에 한계
2️⃣ 반정형 데이터 (Semi-Structured Data)
📌 특징
- 일정한 구조는 있지만 정형 데이터처럼 엄격하지 않음
- 태그나 메타데이터로 구조화
- 스키마가 유연하고 확장 가능
- 계층적 구조를 가질 수 있음
💾 저장 형식
- JSON (JavaScript Object Notation)
- XML (eXtensible Markup Language)
- HTML
- YAML
- 로그 파일
📋 실제 예시
JSON 형식 (API 응답 데이터)
json
{
"고객ID": "C001",
"이름": "김철수",
"나이": 28,
"연락처": {
"전화": "010-1234-5678",
"이메일": "kim@email.com"
},
"주문내역": [
{
"주문ID": "O001",
"상품명": "무선마우스",
"금액": 29000,
"주문일": "2025-10-10"
},
{
"주문ID": "O002",
"상품명": "키보드",
"금액": 45000,
"주문일": "2025-10-11"
}
]
}
XML 형식 (설정 파일)
xml
<고객>
<고객ID>C001</고객ID>
<이름>김철수</이름>
<나이>28</나이>
<연락처>
<전화>010-1234-5678</전화>
<이메일>kim@email.com</이메일>
</연락처>
<주문내역>
<주문>
<주문ID>O001</주문ID>
<상품명>무선마우스</상품명>
<금액>29000</금액>
</주문>
</주문내역>
</고객>
로그 파일 예시
2025-10-12 14:23:45 [INFO] User login: user_id=12345, ip=192.168.1.100
2025-10-12 14:24:10 [WARNING] Failed login attempt: user_id=67890
2025-10-12 14:25:30 [ERROR] Database connection timeout
✅ 장점
- 유연한 구조 (필드 추가/삭제 용이)
- 계층적 데이터 표현 가능
- 다양한 데이터 타입 지원
- API 통신에 적합
❌ 단점
- 정형 데이터보다 처리 속도 느림
- 전처리 과정 필요
- 저장 공간 많이 차지
- 복잡한 쿼리 작성 어려움
3️⃣ 비정형 데이터 (Unstructured Data)
📌 특징
- 고정된 구조가 없는 데이터
- 사람이 이해하기 쉽지만 컴퓨터가 분석하기 어려움
- 전체 데이터의 80~90% 차지
- 딥러닝과 자연어 처리 기술 필요
💾 저장 형식
- 텍스트: 이메일, 문서, SNS 게시글
- 이미지: JPG, PNG, GIF
- 비디오: MP4, AVI, MOV
- 오디오: MP3, WAV
- 기타: PDF, PPT
📋 실제 예시
텍스트 데이터
고객 리뷰:
"이 제품 정말 좋아요! 배송도 빠르고 품질도 만족스럽습니다.
다만 가격이 조금 비싼 것 같아요. 그래도 전반적으로
추천합니다. ⭐⭐⭐⭐⭐"
소셜 미디어 게시글
오늘 날씨 정말 좋다 ☀️
#일상 #데일리 #맑음
친구들이랑 한강 가야지 🎉
이메일
제목: 회의 일정 변경 안내
본문:
안녕하세요, 김대리입니다.
내일 예정된 10시 회의가 오후 2시로 변경되었습니다.
참석 가능 여부 회신 부탁드립니다.
감사합니다.
이미지 데이터
- 제품 사진
- 의료 영상 (X-ray, MRI)
- 얼굴 인식 데이터
비디오/오디오
- YouTube 영상
- 고객 상담 녹음 파일
- CCTV 영상
✅ 장점
- 풍부한 정보 포함
- 인간의 의사소통 방식과 유사
- 감정, 맥락 등 복잡한 정보 표현 가능
❌ 단점
- 분석이 매우 어려움
- 대용량 저장 공간 필요
- 전처리에 많은 시간 소요
- 특수한 기술(NLP, Computer Vision) 필요
📊 세 가지 데이터 비교표
| 구분 | 정형데이터 | 반정형데이터 | 비정형데이터 |
|---|---|---|---|
| 구조 | 고정된 스키마 | 유연한 구조 | 구조없음 |
| 형식 | CSV, DB | JSON, XML | 텍스트, 이미지, 영상 |
| 저장 | 관계형 DB | NoSQL, 파일 | 파일시스템, 객체저장소 |
| 검색 | 매우 쉬움 | 보통 | 매우 어려움 |
| 분석 | SQL | 파싱 후 분석 | AI/딥러닝 필요 |
| 비율 | 엑셀, 데이터베이스 | API응답, 로그 | SNS, 이미지, 동영상 |
🔄 데이터 변환 과정
비정형 → 반정형 → 정형
예시: 고객 리뷰 분석
1단계: 비정형 데이터
"이 제품 정말 좋아요! 배송도 빠르고 품질도 만족스럽습니다."
2단계: 반정형 데이터 (JSON)
json
{
"리뷰ID": "R001",
"내용": "이 제품 정말 좋아요! 배송도 빠르고 품질도 만족스럽습니다.",
"감정": "긍정",
"키워드": ["제품", "배송", "품질"],
"평점": 5
}
3단계: 정형 데이터 (CSV)
| 리뷰ID | 고객ID | 감정 | 평점 | 제품언급 | 배송언급 | 품질언급 |
|---|---|---|---|---|---|---|
| R001 | C001 | 긍정 | 5 | 1 | 1 | 1 |
💡 빅데이터 분석기사 시험에서의 활용
작업형2에서 다루는 데이터
- ✅ 정형 데이터: 주로 CSV 파일
- ⚠️ 반정형/비정형: 거의 출제되지 않음
실무에서의 데이터 처리 흐름
1. 비정형 데이터 수집 (SNS, 리뷰, 이미지)
↓
2. 전처리 및 구조화 (반정형으로 변환)
↓
3. 정형 데이터로 변환
↓
4. 머신러닝 모델 학습 ← 시험에서 다루는 부분
↓
5. 예측 및 분석
추가 학습이 필요한 경우
- 자연어 처리 (NLP): 텍스트 데이터 분석
- 컴퓨터 비전: 이미지/영상 분석
- 오디오 처리: 음성 인식, 음악 분석
✅ 핵심 요약
정형 데이터
- 표 형태, CSV/Excel
- 머신러닝 적용 쉬움
- 빅데이터 분석기사 시험 범위
반정형 데이터
- JSON/XML 형식
- API 응답, 로그 파일
- 전처리 후 분석 가능
비정형 데이터
- 텍스트, 이미지, 영상
- AI/딥러닝 기술 필요
- 전체 데이터의 80% 차지
💡 시험 팁: 빅데이터 분석기사 작업형2는 정형 데이터만 다루므로, 정형 데이터 처리에 집중하세요!
