Initial commit to git.yoin

2026-02-11 22:02:47 +08:00
commit cf10ab6473
153 changed files with 14581 additions and 0 deletions
--- a/image-service/references/color-sync-guide.md
+++ b/image-service/references/color-sync-guide.md
@@ -0,0 +1,76 @@
+# 配色协同机制
+
+当 image-service 与其他 skill 配合使用时（如 pptx、docx、obsidian 等），**必须感知上下文配色方案并自动适配**，确保生成的图片与目标载体风格统一。
+
+## 协同原则
+
+1. **主动感知**：生成配图前，先确认目标载体的配色方案
+2. **自动适配**：将配色信息融入图片生成提示词
+3. **风格统一**：背景色、主色调、强调色保持一致
+
+## 配色来源优先级
+
+| 优先级 | 来源 | 说明 |
+|-------|------|------|
+| 1 | 用户明确指定 | 用户直接提供的颜色值 |
+| 2 | 当前任务上下文 | 正在制作的 PPT/文档的配色方案 |
+| 3 | 项目配置文件 | `.design/palette.json` 或类似配置 |
+| 4 | 默认风格 | 手绘白底风格（无特殊要求时） |
+
+## 与 PPTX 协同
+
+制作 PPT 配图时，从 pptx skill 的设计方案中提取配色：
+
+```markdown
+# 示例：PPT 配色方案
+- 背景色：#181B24（深蓝黑）
+- 主色：#B165FB（紫色）
+- 辅助色：#40695B（翡翠绿）
+- 文字色：#FFFFFF / #AAAAAA
+```
+
+生成图片时，将配色融入提示词：
+
+```bash
+# 错误示例（不考虑配色）
+python scripts/text_to_image.py "流程图，用户路径变化" -r 16:9
+
+# 正确示例（融入配色）
+python scripts/text_to_image.py "信息图风格，深色背景#181B24，科技感流程图。用紫色#B165FB和翡翠绿#40695B作为强调色，展示用户路径变化，发光线条风格，中文标签" -r 16:9
+```
+
+## 与其他 Skill 协同
+
+| 目标载体 | 配色来源 | 适配要点 |
+|---------|---------|---------|
+| **PPTX** | HTML slides 的 CSS 配色 | 背景色、强调色、文字色统一 |
+| **DOCX** | 文档主题色或用户指定 | 配合文档正式/活泼风格 |
+| **Obsidian** | Vault 主题（深色/浅色） | 适配笔记阅读体验 |
+| **小红书** | 品牌色或内容调性 | 竖版 3:4，吸睛配色 |
+| **调研报告** | 统一手绘风格 | 使用 research_image.py 预设 |
+
+## 配色提示词模板
+
+```
+信息图风格，{背景描述}背景{背景色}，{风格描述}。
+使用{主色}作为主色调，{辅助色}作为辅助色。
+{内容描述}，{视觉风格}，中文标签。
+```
+
+**示例**：
+```
+信息图风格，深色背景#181B24，科技感对比图。
+使用紫色#B165FB作为主色调，翡翠绿#40695B作为辅助色。
+左侧展示SEO特点，右侧展示GEO特点，发光连接线风格，中文标签。
+```
+
+## Agent 执行规范
+
+1. **识别协同场景**：检测是否在为其他 skill 生成配图
+2. **提取配色方案**：从上下文/HTML/配置中获取颜色值
+3. **构建适配提示词**：将配色信息自然融入生成描述
+4. **验证风格一致**：生成后确认与目标载体视觉协调
+
+## 协同执行流程
+
+1. 确认目标载体 → 2. 提取配色方案 → 3. 融入提示词 → 4. 生成适配图片
--- a/image-service/references/long-image-guide.md
+++ b/image-service/references/long-image-guide.md
@@ -0,0 +1,135 @@
+# 长图生成规范
+
+生成需要拼接的长图时，采用**叠罗汉式串行生成**，每张图参考上一张图生成，确保风格一致、衔接自然。
+
+## 铁律：执行前必须分析+确认
+
+**收到长图需求后，禁止直接开始生成！必须先完成以下步骤：**
+
+### 第一步：分析提示词结构
+
+仔细阅读提示词，识别以下信息：
+1. **分屏数量**：提示词中有几个明确的段落/模块？
+2. **每屏内容**：每一屏具体要展示什么？
+3. **全局风格**：色调、风格、光影等统一要素
+4. **衔接元素**：段落之间用什么元素过渡？
+
+### 第二步：输出分屏规划表
+
+必须用表格形式输出规划，让用户一目了然：
+
+```markdown
+| 屏数 | 内容概要 | 关键元素 |
+|-----|---------|---------|
+| 1 | 主视觉+标题 | xxx |
+| 2 | xxx特写 | xxx |
+| ... | ... | ... |
+
+**全局风格**：xxx风格、xxx色调、xxx布光
+**输出比例**：3:4
+**预计生成**：N张图 → 拼接为长图
+```
+
+### 第三步：等待用户确认
+
+**必须等用户说"OK"、"开始"、"没问题"后才能开始生成！**
+
+用户可能会：
+- 调整分屏数量
+- 修改某屏内容
+- 补充遗漏的要素
+
+## 核心原则：叠罗汉式串行生成
+
+**为什么用串行而不是并发？**
+- 每张图的顶部颜色需要与上一张图的底部颜色衔接
+- 只有等上一张图生成完成，才能提取其底部色调
+- 串行生成确保每一屏之间的过渡自然无缝
+
+**为什么参考上一张而不是首图？**
+- 参考首图会导致中间屏幕风格跳跃
+- 叠罗汉式参考让风格逐屏延续，过渡更平滑
+- 每张图只需关心与相邻图的衔接
+
+## 生成前校验清单
+
+| 检查项 | 要求 | 示例 |
+|-------|------|------|
+| **比例统一** | 所有分图使用相同 `-r` 参数 | 全部 `-r 3:4` |
+| **风格描述统一** | 使用相同的风格关键词 | 全部 `电影级美食摄影风格` |
+| **色调统一** | 定义主色调范围 | 全部 `深红色、暖棕色、金色` |
+
+## Agent 执行流程（铁律）
+
+```
+1. 收到长图需求
+2. 【分析】仔细阅读提示词，识别分屏结构
+3. 【规划】输出分屏规划表（表格形式）
+4. 【确认】等待用户确认后才开始生成（铁律！）
+5. 定义全局风格变量（主色调、风格词）
+6. 串行生成每一屏：
+   a. 首屏：用 text_to_image.py 生成，定调
+   b. 第2屏：用 image_to_image.py 参考第1屏生成
+   c. 第3屏：用 image_to_image.py 参考第2屏生成
+   d. 以此类推...每屏参考上一屏
+7. 每屏生成后等待完成，再生成下一屏（串行，不可并发）
+8. 全部完成后，使用 --blend 20 拼接输出
+```
+
+## 图生图 Prompt 规范
+
+**核心要点：顶部衔接上一张底部**
+
+后续图片的 prompt 必须包含：
+1. **顶部衔接声明**：明确顶部颜色/氛围与上一张底部衔接
+2. **风格继承**：参考上一张图的整体风格、光影
+3. **本屏内容**：描述当前屏幕要展示的内容
+
+**Prompt 模板：**
+```
+参考模板图的整体风格、色调和光影氛围。本屏顶部与上一屏底部自然衔接。{本屏具体内容描述}
+```
+
+**更精确的写法（推荐）：**
+```
+参考模板图的{风格}、{色调}、{光影}。顶部延续上一屏底部的{颜色/氛围}。{本屏具体内容描述}
+```
+
+## 分屏位置规范
+
+| 位置 | 处理方式 |
+|------|---------|
+| **首屏** | 顶部正常开始，底部内容自然过渡（无需刻意留白） |
+| **中间屏** | 顶部衔接上一屏底部颜色，底部内容自然过渡 |
+| **尾屏** | 顶部衔接上一屏底部颜色，底部正常收尾 |
+
+**关键：不要预留固定百分比的留白区域，让内容自然过渡即可**
+
+## 执行示例
+
+```bash
+# 步骤1：生成首屏（文生图，定调）
+python .opencode/skills/image-service/scripts/text_to_image.py "高端美食摄影风格，深红暖棕金色调，电影级布光..." -r 3:4 -o 01_hero.png
+# 等待完成
+
+# 步骤2：生成第2屏（参考第1屏）
+python .opencode/skills/image-service/scripts/image_to_image.py 01_hero.png "参考模板图的美食摄影风格、深红暖棕色调、电影级布光。顶部延续上一屏底部的暖色氛围。本屏内容：酥皮特写..." -r 3:4 -o 02_crisp.png
+# 等待完成
+
+# 步骤3：生成第3屏（参考第2屏）
+python .opencode/skills/image-service/scripts/image_to_image.py 02_crisp.png "参考模板图的美食摄影风格、深红暖棕色调、电影级布光。顶部延续上一屏底部的色调。本屏内容：牛排特写..." -r 3:4 -o 03_tenderloin.png
+# 等待完成
+
+# ...以此类推
+
+# 最后：拼接（推荐 blend 20）
+python .opencode/skills/image-service/scripts/merge_long_image.py 01_hero.png 02_crisp.png 03_tenderloin.png ... -o final.png --blend 20
+```
+
+## 铁律
+
+1. **必须串行生成**：每屏生成完成后再生成下一屏，禁止并发
+2. **叠罗汉式参考**：第N屏参考第N-1屏，不是全部参考首屏
+3. **顶部衔接**：每屏的顶部颜色/氛围必须与上一屏底部衔接
+4. **不留固定留白**：不要预留4%/8%等固定留白，让内容自然过渡
+5. **脚本区分**：首屏用 `text_to_image.py`，后续全部用 `image_to_image.py`
--- a/image-service/references/text-rendering-guide.md
+++ b/image-service/references/text-rendering-guide.md
@@ -0,0 +1,41 @@
+# 文字清晰规范
+
+生成包含中文文字的图片时，**必须在 prompt 末尾追加文字清晰指令**，确保文字可读、无乱码。
+
+## 文字清晰后缀（必加）
+
+```
+【文字渲染要求】
+- 所有中文文字必须清晰可读，笔画完整，无模糊、无乱码、无伪文字
+- 文字边缘锐利，呈现印刷级清晰度，彻底消除压缩噪点与边缘溢色
+- 字体风格统一，字距适中，排版规整
+- 严禁出现无法阅读的乱码字符或残缺笔画
+```
+
+## 完整 Prompt 结构
+
+```
+{风格描述}。{内容描述}。{布局描述}。
+
+【文字渲染要求】
+- 所有中文文字必须清晰可读，笔画完整，无模糊、无乱码、无伪文字
+- 文字边缘锐利，呈现印刷级清晰度
+- 字体风格统一，排版规整
+```
+
+## 生成后校验流程
+
+1. 生成图片后，用 `image_to_text.py -m ocr` 校验文字是否清晰
+2. 如果 OCR 识别结果与预期文字不符，使用图生图迭代修复
+3. 修复 prompt 使用以下模板
+
+## 文字修复 Prompt（图生图迭代修复用）
+
+```
+执行语意级图像重构。针对图中模糊或乱码的文字区域进行修复：
+1. 保持原图的版面配置、物体座标、配色风格完全不变
+2. 将模糊文字修复为清晰的简体中文：{预期文字内容}
+3. 文字笔画必须呈现印刷级清晰度，边缘锐利，无压缩噪点
+4. 严禁产生无法阅读的伪文字或乱码
+直接输出修复后的图像。
+```