Data Engineer 2

빅데이터 분석 - 빅데이터 분석 기획

데이터 유형 구조 정형 데이터 : RDB, 스프레드 시트 등 반정형 데이터 : XML, JSON, 로그 데이터 등 비정형 데이터 : 이미지, 오디오, 비디오 등 존재 형태 실시간 : 센서 데이터, 시스템 로그 등 비실시간 : 통계, 웹 로그, 구매 정보 등 저장 형태 파일 데이터 : 로그, 텍스트 등 데이터베이스 데이터 : RDBMS, NoSQL 등 콘텐츠 데이터 : 텍스트, 이미지, 비디오, 오디오 등 스트림 데이터 : 실시간 전송이 되는 데이터 데이터 수집 기술 정형 데이터 : ETL/ELT, FTP, Open API 비정형 데이터 : 크롤링, RSS, Open API, FTP, Apache Kafka 반정형 데이터 : Flume, Streaming, Scribe, Chukwa 데이터 저장 정형 데이..

Data Engineer 2023.02.20

Hadoop Ecosystem

출처 : https://velog.io/@dddwsd * Hadoop : 대용량 데이터(빅데이터), 분산 저장 분석 해주는 자바 기반 오픈소스 프레임 워크 - 분산저장(HDFS), 분산 처리기술(MapReduce) - 하둡은 HDFS(Hadoop Distributed File System)라는 데이터 저장소와 맵리듀스(MapReduce)라는 분석 시스템을 통해 분산 프로그래밍을 수행하는 프레임워크 - HDFS 방식은 Disk I/O에 의해 성능 저하를 유발하며, 추후에 In-memory 기반의 spark가 등장 * Hadoop EcoSystem hadoop framework를 이루고 있는 다양한 project들의 모임을 의미한다. Data Injection Kafka 분산 메시징 시스템으로 데이터 파이프..

Data Engineer 2023.02.10