하이브 예제 | Pergamino

Hive 쿼리 언어는 하위 쿼리를 지원하는 SQL과 유사합니다. Hive 쿼리 언어를 사용하면 Hive 테이블에서 MapReduce 조인을 사용할 수 있습니다. CONCAT, SUBSTR, ROUND 등 간단한 SQL 및 집계 함수 – SUM, COUNT, MAX 등 간단한 SQL을 지원합니다. 또한 그룹 BY 및 SORT BY 절을 지원합니다. Hive 쿼리 언어로 사용자 정의 함수를 작성할 수도 있습니다. 세분성 순서 – Hive 데이터로 구성됩니다: Hive는 테이블을 파티션에 저장합니다. 파티션은 테이블을 관련 부분으로 나누는 데 사용됩니다. 파티션을 통해 데이터 쿼리가 더 효율적입니다. 예를 들어 위의 날씨 표에서 데이터는 연도 및 월을 기준으로 분할할 수 있으며 날씨 테이블에서 쿼리가 발생하면 이 파티션을 열 중 하나로 사용할 수 있습니다. 로드 데이터를 실행한 후 table temp_driver가 driver.csv의 데이터로 채워진 것을 볼 수 있습니다. 이 단계에서 Hive는 데이터 파일 driver.csv를 사용했습니다. 파일 브라우저에서 보면 driver.csv가 더 이상 존재하지 않습니다.

다음은 LOAD 데이터 LOCAL 명령에 대한 몇 가지 예입니다 드롭 데이터베이스 Hive 명령에 대한 구문에서 “있는 경우” 절은 프로그래머가 존재하지 않는 데이터베이스를 삭제하려고 할 때 발생할 수 있는 오류를 피하기 위해 사용됩니다. 시작하기 전에 돼지와 Hive 데이터 모델이 어떻게 다른지 살펴보겠습니다. Pig의 경우 모든 데이터 개체가 존재하며 스크립트에서 작동됩니다. 스크립트가 완료되면 저장하지 않는 한 모든 데이터 개체가 삭제됩니다. 하이브의 경우 아파치 하두프 데이터 스토어에서 운영하고 있습니다. 만드는 모든 쿼리, 생성한 테이블, 복사하는 데이터는 쿼리에서 쿼리로 유지됩니다. Hive는 아파치 하두프의 데이터를 검사, 수정 및 조작할 수 있는 데이터 작업대를 제공하는 것으로 생각할 수 있습니다. 따라서 데이터 처리 작업을 수행하면 한 번에 하나의 쿼리 또는 줄을 실행합니다. 한 줄이 성공적으로 실행되면 데이터 개체를 보고 마지막 작업이 예상한 것과 일치했는지 확인할 수 있습니다. 모든 데이터는 저장 저장소에 복사되지 않는 한 데이터 개체가 스크립트 내에만 존재하는 Pig와 비교하여 라이브입니다.

이러한 유연성은 하이브의 강점입니다. 당신은 조금씩 문제를 해결하고 당신이 찾은 것에 따라 다음에 무엇을 해야할지에 마음을 바꿀 수 있습니다. 이름에서 알 수 있듯이 Hive의 이 DDL 명령은 데이터베이스를 만드는 데 사용됩니다. 이 자습서에서는 Ambari HDFS 파일 보기를 사용 하 여 트럭 드라이버 통계의 데이터 파일을 저장 합니다. Hive 쿼리를 구현하여 해당 데이터를 분석, 처리 및 필터링합니다. 보물 데이터는 HiveQL 의미 체계를 지원하지만 아파치 하이브와 달리 사용자는 언제든지 스키마를 설정하고 수정할 수 있습니다. 테이블 스키마를 미리 정의할 필요는 없습니다. 다음은 공식 하이브 자습서 및 언어 설명서입니다: 아파치 하이브는 내부적으로 지도로 변환되는 HQL (Hive 쿼리 언어)라는 쿼리와 같은 SQL을 실행하는 Hadoop의 데이터 웨어 하우스 시스템입니다.