Apache Hive와 Apache Spark SQL의 차이점
1. Apache Hive :
Apache Hive는 Apache Hadoop 의 정점에 구축 된 데이터웨어 하우스 장치로 편리한 레코드 요약, 임시 쿼리 및 Hadoop과 결합 된 여러 데이터베이스 및 파일 구조에 저장된 방대한 데이터 세트의 평가를 가능하게합니다. MapR XD 및 MapR 데이터베이스와 함께 MapR 데이터 플랫폼과 함께. Hive는 대량의 구조화되지 않은 사실에 대한 구조를 연습 한 다음 해당 데이터에 대해 SQL과 유사한 일괄 쿼리를 실행하는 쉬운 방법을 제공합니다.
2. Apache Spark SQL :
Spark SQL은 SQL에 대한 기본 지원을 Spark에 제공하고 RDD (Spark의 할당 된 데이터 세트) 및 외부 소스에 각각 저장된 레코드를 쿼리하는 방법을 간소화합니다. Spark SQL은 RDD와 관계형 테이블 간의 추적을 손쉽게 흐리게 처리합니다. 이러한 효과적인 추상화를 통합하면 개발자가 외부 정보를 쿼리하는 SQL 명령어를 복잡한 분석과 혼합하여 단일 애플리케이션 내에서 편리하게 사용할 수 있습니다.
APACHE HIVE | SPARK SQL |
Apache Hadoop 위에 구축 된 오픈 소스 데이터웨어 하우스 시스템 입니다. |
SQL을 사용하여 정보를 처리하는 구조화 된 데이터 처리 시스템에서 사용됩니다. |
대용량 데이터 세트를 포함 하고 분석 및 쿼리 목적으로 Hadoop 파일에 저장 됩니다. |
작업 처리를위한 올바른 최적화 기술이 뒤 따르는 무거운 함수를 계산합니다 . |
2012 년에 출시되었습니다. | 2014 년에 처음 등장했습니다. |
구현을 위해 주로 JAVA를 사용합니다. | R, Python, Scala와 같은 다양한 언어로 구현할 수 있습니다. |
최신 버전 (2.3.2)은 2017 년에 출시되었습니다. | 최신 버전 (2.3.0)이 2018 년에 출시되었습니다. |
주로 RDMS가 데이터베이스 모델로 사용됩니다. | No-SQL 데이터베이스와 통합 할 수 있습니다. |
제공되는 모든 OS를 지원할 수 있으며 JVM 환경이있을 것입니다. | Linux, Windows 등 다양한 OS를 지원합니다. |
처리를위한 액세스 방법에는 JDBC, ODBC 및 Thrift가 포함됩니다. | ODBC 및 JDBC로만 액세스 할 수 있습니다. |
출처 : www.geeksforgeeks.org/difference-between-apache-hive-and-apache-spark-sql/
'Apache Hive' 카테고리의 다른 글
Hive Partitioning (0) | 2020.11.25 |
---|---|
HIVE SQL - JOIN 이해(공식문서) (0) | 2020.10.28 |
HIVE SQL - EXCHANGE PARTITION (0) | 2020.10.28 |
HIVE SQL - BackSlash( ' \ ' ) 찾기 (0) | 2020.10.26 |