Zhonghui

每个不曾起舞的日子,都是对生命的辜负

User Tools

Site Tools


程序:hadoop:hadoop

Hadoop

https://hadoop.apache.org/

基本上来说,还是一个数据库,一般和Hive一起使用

Hadoop是负责存储数据的(待确认)


AI介绍

  1. Hadoop 是一个用来在一堆普通服务器上做大规模数据存储与分布式计算的开源生态(Apache)。它把超大的数据切块存起来、自动多副本容错,并把计算任务拆成很多小任务在多台机器上并行跑。
  2. 适合:大体量离线统计、数仓建模(ODS/DWD/DWS)、T+1 报表、成本敏感的批处理。
  3. 不适合:低延迟/高并发 OLTP、秒级交互式查询。
  4. Hive、Spark、Flink、Presto/Trino 等都可跑在 Hadoop 集群上(用 HDFS 做存储、YARN 做调度)。
  5. Hive 提供 SQL 表层与数仓能力;Spark/Flink 提供更高效/流式或内存计算;Trino 适合交互式查询。
/var/www/DokuWikiStick/dokuwiki/data/pages/程序/hadoop/hadoop.txt · Last modified: 2025/09/20 06:03 by zhonghui