Data Engineer
빅데이터 분석 - 빅데이터 분석 기획
J_Bin
2023. 2. 20. 14:35
- 데이터 유형
- 구조
- 정형 데이터 : RDB, 스프레드 시트 등
- 반정형 데이터 : XML, JSON, 로그 데이터 등
- 비정형 데이터 : 이미지, 오디오, 비디오 등
- 존재 형태
- 실시간 : 센서 데이터, 시스템 로그 등
- 비실시간 : 통계, 웹 로그, 구매 정보 등
- 저장 형태
- 파일 데이터 : 로그, 텍스트 등
- 데이터베이스 데이터 : RDBMS, NoSQL 등
- 콘텐츠 데이터 : 텍스트, 이미지, 비디오, 오디오 등
- 스트림 데이터 : 실시간 전송이 되는 데이터
- 구조
- 데이터 수집 기술
- 정형 데이터 : ETL/ELT, FTP, Open API
- 비정형 데이터 : 크롤링, RSS, Open API, FTP, Apache Kafka
- 반정형 데이터 : Flume, Streaming, Scribe, Chukwa
- 데이터 저장
- 정형 데이터 : RDBMS
- 반정형 데이터 : NoSQL
- 비정형 데이터 : 분산 파일 시스템
- 하둡 분산 파일 시스템(HDFS)
- 구글 파일 시스템(GFS)
- 데이터 저장 플랫폼
- 데이터 웨어하우스
- 기업의 업무시스템에서 발생하는 방대한 데이터를 통합 관리하는 데이터 저장소
- 데이터 레이크
- 정형, 비정형 데이터 등 다양한 데이터를 실시간으로 수집, 정제, 통합하여 분석에 활용하기 위해 다양한 유형의 데이터를 저장할 수 있는 저장소
- 데이터 웨어하우스