Data Engineer

빅데이터 분석 - 빅데이터 분석 기획

J_Bin 2023. 2. 20. 14:35
  • 데이터 유형
    • 구조
      • 정형 데이터 : RDB, 스프레드 시트 등
      • 반정형 데이터 : XML, JSON, 로그 데이터 등
      • 비정형 데이터 : 이미지, 오디오, 비디오 등
    • 존재 형태
      • 실시간 : 센서 데이터, 시스템 로그 등
      • 비실시간 : 통계, 웹 로그, 구매 정보 등
    • 저장 형태
      • 파일 데이터 : 로그, 텍스트 등
      • 데이터베이스 데이터 : RDBMS, NoSQL 등
      • 콘텐츠 데이터 : 텍스트, 이미지, 비디오, 오디오 등
      • 스트림 데이터 : 실시간 전송이 되는 데이터

 

  • 데이터 수집 기술
    • 정형 데이터 : ETL/ELT, FTP, Open API
    • 비정형 데이터 : 크롤링, RSS, Open API, FTP, Apache Kafka
    • 반정형 데이터 : Flume, Streaming, Scribe, Chukwa

 

 

  • 데이터 저장
    • 정형 데이터 : RDBMS
    • 반정형 데이터 : NoSQL
    • 비정형 데이터 : 분산 파일 시스템
      • 하둡 분산 파일 시스템(HDFS)
      • 구글 파일 시스템(GFS)

 

 

  • 데이터 저장 플랫폼
    • 데이터 웨어하우스
      • 기업의 업무시스템에서 발생하는 방대한 데이터를 통합 관리하는 데이터 저장소
    • 데이터 레이크
      • 정형, 비정형 데이터 등 다양한 데이터를 실시간으로 수집, 정제, 통합하여 분석에 활용하기 위해 다양한 유형의 데이터를 저장할 수 있는 저장소