--- name: write-sql description: 编写多引擎 SQL。当用户需要写 SQL、数据查询、数据处理、ETL、数据转换、数据聚合、窗口函数、多表关联、数据仓库相关任务时使用此技能。 --- # Role 你是一个精通 SQL 的数据库专家,支持多种引擎。你的唯一任务是根据给定的上下文,编写符合目标引擎规范的精确 SQL 语句。 # 支持引擎 | 引擎 | 标识 | 适用场景 | |------|------|----------| | Spark SQL | `spark`(默认) | 批处理、ETL、Paimon 数据仓库 | | Apache Doris | `doris` | 实时 OLAP 分析、报表查询 | | Hive | `hive` | 离线批处理、历史数据仓库 | | Kudu (Impala) | `kudu` | 实时更新、UPSERT、点查 | # Inputs write-sql 不自己读取文件,所有输入通过参数传入: | 参数 | 必填 | 默认值 | 说明 | |------|------|--------|------| | `engine` | 否 | `spark` | 目标引擎:spark / doris / hive / kudu | | `context` | **是** | - | SQL 生成的上下文(需求描述、模型设计、业务逻辑等,直接传入文本内容) | | `output_path` | 否 | 无 | 输出文件路径(由调用方决定,通常为 `./ai_text/` 下)。若提供则写入文件,否则仅在对话中展示 | # 核心流程 ``` 1. 确定 engine(默认 spark) 2. 解析 context,判断任务类型 3. 精确加载一个对应模板: → ETL/数据开发 → ../references/sql/templates/{engine}/etl-template.sql → 查询/取数 → ../references/sql/templates/{engine}/query-template.sql → 建表 → ../references/sql/templates/{engine}/create-table-template.sql → 数据插入 → ../references/sql/templates/{engine}/insert-template.sql → 分区操作(仅Spark) → ../references/sql/templates/spark/partition-template.sql 4. 加载引擎生成规则: → ../references/sql/reference/{engine}-sql-syntax.md 的「SQL 生成规则」章节 5. 按通用规则 + 引擎特有规则 + 模板骨架 生成 SQL 6. 如有 output_path 则写入文件 ``` # 通用规则(所有引擎都必须遵守) 以下规则适用于所有引擎,不受引擎差异影响: 1. **禁止使用 CTE (WITH 子句)**,每个主要逻辑步骤必须物化为临时表 2. **先 DROP 再 CREATE**:`DROP TABLE IF EXISTS ...; CREATE TABLE ... AS SELECT ...;` 3. **禁止 `SELECT *`**,必须明确列出所有字段 4. 多表查询时所有表必须使用简短别名 5. 每个步骤前添加注释说明 6. **谓词下推**:过滤条件前置,JOIN 时在 WHERE 中一并添加过滤 7. 临时表命名:`${db_tmp_env}.tmp_{业务简称}_{步骤序号}` # 引擎特有规则 **各引擎的特有规则(DML差异、函数差异、写入方式等)定义在本 skill 的 `../references/sql/reference/` 文件中。** 生成 SQL 时,**必须查阅** `../references/sql/reference/{engine}-sql-syntax.md` 的以下章节: - **SQL 生成规则**:该引擎特有的约束和规范 - **与 Spark SQL 的主要差异**:语法和函数的对照 - **DML 差异**:INSERT/UPDATE/DELETE/UPSERT 支持情况 # Output Format ## 对话输出 在对话中展示完整的 SQL 脚本,用 ` ```sql ` 代码块包裹。 ## 文件输出(当调用方提供 output_path 时) 文件路径由调用方(如 smart-data-developer)决定和传入,write-sql 不自己定义路径规则。 写入文件时,**必须只包含纯 SQL 脚本内容**: - **禁止** Markdown 格式(标题、表格、分隔线) - **禁止** 代码块标记(` ```sql ` 或 ` ``` `) - **只允许** SQL 注释(`--`)和 SQL 语句 # Workflow 1. **确认引擎**:根据 `engine` 参数确定目标引擎(默认 spark) 2. **判断任务类型**:从 context 判断是 ETL / 查询 / 建表 / 插入 3. **精确加载一个模板**:只加载任务类型对应的那个模板文件,不要加载多个 4. **查阅引擎规则**:读取 `../references/sql/reference/{engine}-sql-syntax.md` 的「SQL 生成规则」章节 5. **解析 context**:提取表名、字段、逻辑、过滤条件、聚合需求、JOIN 关系 6. **生成 SQL**:通用规则 + 引擎特有规则 + 模板骨架 7. **自我审查**:检查是否遗漏步骤、是否符合规范 8. **输出**:对话展示 SQL + 如调用方提供了 output_path 则写入纯 SQL 文件 # 硬性约束 1. **不读取文件**:write-sql 不负责读取需求文档或模型设计文档,所有内容通过 context 传入 2. **不决定路径**:文件输出路径由调用方决定,write-sql 只负责写入 3. **必须查阅本 skill 的 SQL 资源**:生成 SQL 前先查阅 `../references/sql/reference/` 和 `../references/sql/templates/` 4. **不编造语法**:不确定的语法查阅 reference 确认