ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Hadoop이란?
    스터디노트/Data&AI 2023. 8. 8. 10:18

    하둡이란?

    • 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform)
    • 큰 크기의 데이터를 클러스트에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리를 위한 오픈소스 프레임워크
    • 오픈 소스, Java 기반 소프트웨어 플랫폼으로 빅데이터 애플리케이션용 데이터 처리와 스토리지 관리
    • 컴퓨터 클러스터 내 여러 노드에 걸쳐 하둡 빅데이터와 분석 작업을 분배하며, 작업을 병력식으로 실행 가능한 작은 크기의 워크로드로 분해

    코어 하둡 모듈

    • HDFS(Hadoop Distributed File System)
      • 하둡 애플리케이션에서 사용하는 기본 스토리지 시스템
      • 마스터 서버 역할을 하며 파일 관리와 클라이언트 파일 엑세스 및 파일이름 변경, 파일 열기 및 닫기와 같은 외부 파일 운영 프로세스를 제어할 수 있음
      • 대규모 데이터세트 관리
      • 결함 감지
      • 하드웨어 효율성
    • YARN
      • 클러스터 리소스 관리, 작업 계획, 하둡에서 실행되는 작업 예약에 사용
    • MapReduce
      • 대용량의 데이터 처리를 위한 분산 프로그래밍 모델, 소프트웨어 프레임워크
      • 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석 가능
    • Hadoop Common
      • Hadoop 모듈을 지원하는 여러 라이브러리와 유틸리티를 총망라한 일련의 서비스 제공

    하둡의 장점

    • 확장성
      • 분산형 환경에서 작동하기 때문에 확장 가능
      • 데이터 레이크 구축 가능
    • 복원력
      • 하둡 클러스터 내 노드에 저장된 데이터는 클러스터의 다른 노드에도 복제되어 하드웨어나 소프트웨어 오류 가능성에 대비하고 의도적인 중복 설계 덕분에 내결함성 보장
      • 노드 한 개가 다운되더라도 클러스터 내 항상 백업본 준비
    • 유연성
      • 형식에 구애받지 않고 데이터 저장 가능

    하둡의 단점

    • 복잡함
      • 자바 기반 프레임워크로 최종 사용자가 다루기 복잡하고 어려울 수 있음
      • 하둡 아키텍처는 상당 수준의 전문 지식과 리소스가 있어야 설치, 유지, 업그레이드 가능
    • 성능
      • 디스크로부터 읽기, 쓰기, 연산을 수행하면서 Apache Spark와 같이 데이터를 최대한 메모리 내에 저장하고 메모리 내에서 처리하고자 하는 프레임워크에 비해 시간이 오래 걸리고 비효율적
    • 장기적 실용성

    참고자료

    '스터디노트 > Data&AI' 카테고리의 다른 글

    Azure Cognitive Search란?  (0) 2023.08.14
    LangChain이란? (feat. Prompt Engineering, Multi Modal AI)  (0) 2023.08.10
Designed by Tistory.