程序:hadoop:hadoop
Hadoop
AI介绍
Hadoop 是一个用来在一堆普通服务器上做大规模数据存储与分布式计算的开源生态(Apache)。它把超大的数据切块存起来、自动多副本容错,并把计算任务拆成很多小任务在多台机器上并行跑。
适合:大体量离线统计、数仓建模(ODS/DWD/DWS)、T+1 报表、成本敏感的批处理。
不适合:低延迟/高并发 OLTP、秒级交互式查询。
Hive、Spark、Flink、Presto/Trino 等都可跑在 Hadoop 集群上(用 HDFS 做存储、YARN 做调度)。
Hive 提供 SQL 表层与数仓能力;Spark/Flink 提供更高效/流式或内存计算;Trino 适合交互式查询。
/var/www/DokuWikiStick/dokuwiki/data/pages/程序/hadoop/hadoop.txt · Last modified: 2025/09/20 06:03 by zhonghui