하둡 맵리듀스 예제

하둡 맵리듀스 예제

Hadoop은 모든 하드웨어가 조만간 고장나고 시스템이 견고하고 하드웨어 오류를 자동으로 처리할 수 있어야 한다는 가정 하에 설계되었습니다. 하두프 파이프는 MapReduce 응용 프로그램(JNI가 아닌 ™ 기반)을 구현하는 SWIG 호환 C++ API입니다. Hadoop MapReduce는 중간 맵 출력과 작업 출력 즉 감소의 출력모두에 대한 압축을 지정하는 응용 프로그램 작성기를 위한 시설을 제공합니다. 또한 zlib 압축 알고리즘에 대한 압축 코드 구현과 함께 번들로 제공됩니다. gzip, bzip2, 스냅 및 lz4 파일 형식도 지원됩니다. Hadoop MapReduce 프레임워크는 작업에 대한 입력 형식에 의해 생성된 각 InputSplit에 대해 하나의 맵 태스크를 생성합니다. 일반적으로 계산 노드와 저장소 노드는 동일합니다. 이 구성을 통해 프레임워크는 데이터가 이미 있는 노드에서 작업을 효과적으로 예약할 수 있으므로 클러스터 전체에서 매우 높은 집계 대역폭을 사용할 수 있습니다. 단어 수 예는 하눕과 MapReduce의 “Hello World” 프로그램입니다.

이 예제에서 프로그램은 파일의 각 단어의 발생 수를 계산하는 MapReduce 작업으로 구성됩니다. 이 작업은 맵과 축소 두 부분으로 구성됩니다. 맵 작업은 파일의 데이터를 매핑하고 맵 함수에 제공된 데이터 청크의 각 단어를 계산합니다. 이 작업의 결과는 데이터를 결합하고 디스크에 최종 결과를 출력하는 것을 줄이기 위해 전달됩니다. Hadoop은 또한 성능 (zlib) 및 자바 라이브러리의 비 가용성의 이유로 위의 압축 코덱의 기본 구현을 제공합니다. 사용 및 가용성에 대한 자세한 내용은 여기에서 확인할 수 있습니다. Hadoop MapReduce는 일반적으로 유용한 매퍼, 감속기 및 파티셔너 라이브러리와 함께 제공됩니다. 이것은 하눕 맵Reduce의 단어 수 (안녕하세요 세계) 프로그램의 예입니다. Hadoop이 설치, 구성 및 실행 중인지 확인합니다. 자세한 내용: Hadoop 작업 클라이언트는 작업(jar/실행 가능 등)과 구성을 ResourceManager에 제출한 다음 소프트웨어/구성을 슬레이브에 배포하고 작업을 예약하고 모니터링하는 책임을 집니다.

작업 클라이언트에 상태 및 진단 정보를 제공합니다.

Comments are closed.

    About

    This is the deafult sidebar, add some widgets to change it.