Add one-skill

2026-05-13 11:03:00 +08:00
parent a4c8b29176
commit f9e36ef92d
34 changed files with 7656 additions and 0 deletions
--- a/one-skill/smart-data-developer/references/sql/templates/hive/insert-template.sql
+++ b/one-skill/smart-data-developer/references/sql/templates/hive/insert-template.sql
@@ -0,0 +1,141 @@
+-- =====================================================================
+-- @Name:             HIVE-D-SQL-{表名}-INSERT
+-- @Version:          1.0
+-- @Desc:             Hive 数据插入模板
+-- @TargetDatabase:   Hive
+-- =====================================================================
+
+-- ============================================================================
+-- 场景1：分区表覆盖写入（最常用）
+-- ============================================================================
+-- 适用：每日/每周/每月增量写入分区表
+
+INSERT OVERWRITE TABLE db_name.target_table
+PARTITION (day_id = '${day_id}')
+SELECT 
+    user_id,
+    user_name,
+    order_count,
+    total_amount,
+    current_timestamp() AS etl_time
+FROM db_name.source_table
+WHERE day_id = '${day_id}';
+
+-- ============================================================================
+-- 场景2：动态分区写入
+-- ============================================================================
+-- 适用：数据中包含分区值，自动写入对应分区
+
+-- 先启用动态分区
+SET hive.exec.dynamic.partition = true;
+SET hive.exec.dynamic.partition.mode = nonstrict;
+
+INSERT OVERWRITE TABLE db_name.target_table
+PARTITION (day_id, region)            -- 动态分区字段
+SELECT 
+    user_id,
+    user_name,
+    order_count,
+    total_amount,
+    current_timestamp() AS etl_time,
+    day_id,                            -- 分区字段1（数据中包含）
+    region                             -- 分区字段2（数据中包含）
+FROM db_name.source_table
+WHERE day_id BETWEEN '${start_day}' AND '${end_day}';
+
+-- ============================================================================
+-- 场景3：追加写入
+-- ============================================================================
+-- 适用：日志表、流水表（允许追加）
+
+INSERT INTO TABLE db_name.target_table
+SELECT 
+    field1,
+    field2,
+    field3,
+    current_timestamp() AS etl_time
+FROM db_name.source_table
+WHERE day_id = '${day_id}';
+
+-- ============================================================================
+-- 场景4：多分区插入（Multi-Insert）
+-- ============================================================================
+-- 适用：一次扫描，写入多个目标（提高效率）
+
+FROM db_name.source_table
+INSERT OVERWRITE TABLE db_name.target_summary
+    PARTITION (day_id = '${day_id}')
+    SELECT 
+        department,
+        COUNT(*) AS record_count,
+        SUM(amount) AS total_amount
+    WHERE day_id = '${day_id}'
+    GROUP BY department
+
+INSERT OVERWRITE TABLE db_name.target_detail
+    PARTITION (day_id = '${day_id}')
+    SELECT 
+        id,
+        name,
+        amount,
+        department
+    WHERE day_id = '${day_id}'
+      AND amount > 1000;
+
+-- ============================================================================
+-- 场景5：导出到文件
+-- ============================================================================
+
+INSERT OVERWRITE DIRECTORY '/output/data/export/'
+ROW FORMAT DELIMITED
+FIELDS TERMINATED BY ','
+STORED AS TEXTFILE
+SELECT 
+    id,
+    name,
+    amount,
+    day_id
+FROM db_name.target_table
+WHERE day_id = '${day_id}';
+
+-- ============================================================================
+-- 场景6：CTAS（Create Table As Select）
+-- ============================================================================
+
+-- 从查询结果创建新表
+CREATE TABLE db_name.new_table AS
+SELECT 
+    department,
+    COUNT(*) AS employee_count,
+    AVG(salary) AS avg_salary
+FROM db_name.employees
+WHERE day_id = '${day_id}'
+GROUP BY department;
+
+-- ============================================================================
+-- 关键规则说明
+-- ============================================================================
+/*
+1. INSERT OVERWRITE vs INSERT INTO
+   - INSERT OVERWRITE：覆盖分区/表数据（推荐，幂等）
+   - INSERT INTO：追加数据（可能产生重复）
+
+2. 分区表写入必须指定分区
+   - 静态分区：PARTITION (day_id = '${day_id}')
+   - 动态分区：需先 SET 配置，PARTITION (day_id)
+   - 混合分区：PARTITION (day_id = '2026-05-01', region)
+
+3. 动态分区配置
+   SET hive.exec.dynamic.partition = true;
+   SET hive.exec.dynamic.partition.mode = nonstrict;  -- 允许全动态
+   SET hive.exec.max.dynamic.partitions = 1000;       -- 最大动态分区数
+
+4. 字段顺序
+   - SELECT 字段顺序必须与目标表列定义一致
+   - 分区字段在 SELECT 最后（动态分区时）
+
+5. 性能优化
+   - 多分区插入（Multi-Insert）：一次扫描多次写入
+   - INSERT OVERWRITE 比 INSERT INTO 更安全（幂等性）
+   - 大数据量写入时注意 reducer 数量设置
+*/