Initial commit: skills library
- 70 skills with code and documentation - Add .gitignore (ignore __pycache__, output/, temp/, venv/) - Clean up test intermediates and caches
This commit is contained in:
@@ -0,0 +1,487 @@
|
||||
---
|
||||
name: image-service
|
||||
description: 多模态图像处理技能,支持文生图、图生图、图生文、长图拼接、调研配图、小红书卡片图、专业信息图、文章封面图。当用户提到图片、图像、生成图、信息图、封面图、小红书、OCR 等关键词时触发。
|
||||
---
|
||||
|
||||
# 图像处理技能
|
||||
|
||||
## 概述
|
||||
|
||||
| 能力 | 说明 | 脚本 |
|
||||
|-----|------|------|
|
||||
| 文生图 | 根据中文文本描述生成图片 | `scripts/text_to_image.py` |
|
||||
| 图生图 | 在已有图片基础上进行编辑 | `scripts/image_to_image.py` |
|
||||
| 图生文 | 分析图片内容(描述、OCR、图表等) | `scripts/image_to_text.py` |
|
||||
| 长图拼接 | 将多张图片垂直拼接为微信长图 | `scripts/merge_long_image.py` |
|
||||
| 调研配图 | 预设手绘风格的调研报告信息图 | `scripts/research_image.py` |
|
||||
| 小红书卡片图 | 10种视觉风格 × 8种布局,生成小红书系列图 | 文生图 + 提示词模板 |
|
||||
| 专业信息图 | 20种布局 × 17种视觉风格,专业信息可视化 | 文生图 + 提示词模板 |
|
||||
| 文章封面图 | 5维定制系统,生成文章/公众号封面 | 文生图 + 提示词模板 |
|
||||
|
||||
## 配置
|
||||
|
||||
配置文件:`config/settings.json`
|
||||
|
||||
| 配置项 | 值 |
|
||||
|-------|-----|
|
||||
| IMAGE_API_BASE_URL | `https://ark.cn-beijing.volces.com/api/coding/v3` |
|
||||
| IMAGE_MODEL | `doubao-seed-2.0-pro` |
|
||||
| VISION_MODEL | `doubao-seed-code` |
|
||||
|
||||
## 执行规范
|
||||
|
||||
**图片默认保存到命令执行时的当前工作目录**:
|
||||
|
||||
1. **不要**使用 `workdir` 切换到 skill 目录执行命令
|
||||
2. **始终**在用户的工作目录下执行,使用脚本的绝对路径
|
||||
3. 脚本路径:`.opencode/skills/image-service/scripts/`
|
||||
|
||||
```bash
|
||||
# 正确示例
|
||||
python .opencode/skills/image-service/scripts/text_to_image.py "描述" -r 3:4 -o output.png
|
||||
```
|
||||
|
||||
## 快速使用
|
||||
|
||||
### 文生图
|
||||
|
||||
```bash
|
||||
python .opencode/skills/image-service/scripts/text_to_image.py "信息图风格,标题:AI技术趋势" -r 16:9
|
||||
python .opencode/skills/image-service/scripts/text_to_image.py "竖版海报,产品展示" -r 3:4 -o poster.png
|
||||
```
|
||||
|
||||
参数:`-r` 宽高比 | `-s` 尺寸 | `-o` 输出路径
|
||||
|
||||
支持比例:`1:1`, `2:3`, `3:2`, `3:4`, `4:3`, `4:5`, `5:4`, `9:16`, `16:9`, `21:9`
|
||||
|
||||
### 图生图
|
||||
|
||||
```bash
|
||||
python .opencode/skills/image-service/scripts/image_to_image.py input.png "编辑描述" -r 3:4
|
||||
```
|
||||
|
||||
### 图生文(视觉分析)
|
||||
|
||||
```bash
|
||||
# 使用火山方舟视觉模型分析图片
|
||||
python .opencode/skills/image-service/scripts/vision_analyzer.py image.jpg -m describe
|
||||
python .opencode/skills/image-service/scripts/vision_analyzer.py screenshot.png -m ocr
|
||||
python .opencode/skills/image-service/scripts/vision_analyzer.py chart.png -m chart
|
||||
python .opencode/skills/image-service/scripts/vision_analyzer.py image.jpg -m custom -q "图片中红框框出来的部分是什么?"
|
||||
```
|
||||
|
||||
模式:`describe` | `ocr` | `chart` | `fashion` | `product` | `scene` | `custom`
|
||||
|
||||
**注意**:Coding Plan 唯一支持的视觉模型是 `doubao-seed-code`,专业视觉模型(如doubao-vision-pro)不支持。
|
||||
|
||||
### 长图拼接
|
||||
|
||||
```bash
|
||||
python .opencode/skills/image-service/scripts/merge_long_image.py img1.png img2.png -o output.png --blend 20
|
||||
python .opencode/skills/image-service/scripts/merge_long_image.py -p "*.png" -o long.png --sort name
|
||||
```
|
||||
|
||||
参数:`-p` 通配符 | `-o` 输出 | `-w` 宽度 | `-g` 间隔 | `--blend` 融合 | `--sort` 排序
|
||||
|
||||
### 调研配图
|
||||
|
||||
```bash
|
||||
python .opencode/skills/image-service/scripts/research_image.py -t arch -n "标题" -c "内容" -o output.png
|
||||
```
|
||||
|
||||
类型:`arch` 架构图 | `flow` 流程图 | `compare` 对比图 | `concept` 概念图
|
||||
|
||||
---
|
||||
|
||||
## 小红书卡片图
|
||||
|
||||
将长内容拆分为 1-10 张小红书风格卡片图,适合种草、教程、知识分享等场景。
|
||||
|
||||
**触发词**:小红书图片、小红书卡片、XHS图、种草图、小红书配图
|
||||
|
||||
### 双维度体系
|
||||
|
||||
| 维度 | 控制 | 可选值 |
|
||||
|------|------|--------|
|
||||
| **风格** | 视觉美学:配色、线条、装饰元素 | 甜美、清新、温暖、醒目、极简、复古、波普、笔记风、黑板风、手写笔记 |
|
||||
| **布局** | 信息结构:密度、排列方式 | 留白、均衡、密集、列表、对比、流程、思维导图、四象限 |
|
||||
|
||||
风格和布局可自由组合,例如:「笔记风 + 密集」= 知识感的高密度卡片。
|
||||
|
||||
### 风格表
|
||||
|
||||
| 风格 | 中文名 | 说明 |
|
||||
|------|--------|------|
|
||||
| `cute` | 甜美(默认) | 甜系少女风,经典小红书美学 |
|
||||
| `fresh` | 清新 | 干净清爽,自然舒适 |
|
||||
| `warm` | 温暖 | 温馨亲切,有人情味 |
|
||||
| `bold` | 醒目 | 高冲击力,抢注意力 |
|
||||
| `minimal` | 极简 | 超干净,高级感 |
|
||||
| `retro` | 复古 | 怀旧感,潮流复古 |
|
||||
| `pop` | 波普 | 鲜艳活泼,视觉冲击 |
|
||||
| `notion` | 笔记风 | 极简手绘线条,知识感 |
|
||||
| `chalkboard` | 黑板风 | 彩色粉笔黑板,教育感 |
|
||||
| `study-notes` | 手写笔记 | 真实手写照片风,蓝笔+红批注+黄荧光 |
|
||||
|
||||
### 布局表
|
||||
|
||||
| 布局 | 中文名 | 说明 |
|
||||
|------|--------|------|
|
||||
| `sparse` | 留白(默认) | 最少信息,最大冲击(1-2个要点) |
|
||||
| `balanced` | 均衡 | 标准内容排版(3-4个要点) |
|
||||
| `dense` | 密集 | 高信息密度,知识卡片风(5-8个要点) |
|
||||
| `list` | 列表 | 枚举排行格式(4-7项) |
|
||||
| `comparison` | 对比 | 左右对照排版 |
|
||||
| `flow` | 流程 | 步骤/时间线排版(3-6步) |
|
||||
| `mindmap` | 思维导图 | 中心发散式(4-8个分支) |
|
||||
| `quadrant` | 四象限 | 四格/扇形分区 |
|
||||
|
||||
### 智能推荐
|
||||
|
||||
| 内容信号 | 推荐风格 | 推荐布局 |
|
||||
|----------|----------|----------|
|
||||
| 美妆、时尚、可爱、少女 | 甜美 | 留白/均衡 |
|
||||
| 健康、自然、清洁、有机 | 清新 | 均衡/流程 |
|
||||
| 生活、故事、情感、温馨 | 温暖 | 均衡 |
|
||||
| 警告、重要、必看、避坑 | 醒目 | 列表/对比 |
|
||||
| 专业、商务、高端、简约 | 极简 | 留白/均衡 |
|
||||
| 经典、怀旧、传统、复古 | 复古 | 均衡 |
|
||||
| 有趣、惊喜、好玩、安利 | 波普 | 留白/列表 |
|
||||
| 知识、概念、效率、工具 | 笔记风 | 密集/列表 |
|
||||
| 教程、教学、课堂、学习 | 黑板风 | 均衡/密集 |
|
||||
| 笔记、手写、学习攻略、真实 | 手写笔记 | 密集/列表/思维导图 |
|
||||
|
||||
### 内容策略
|
||||
|
||||
| 策略 | 中文名 | 适用场景 | 结构 |
|
||||
|------|--------|----------|------|
|
||||
| 故事驱动 | 经验分享型 | 测评、个人分享、蜕变故事 | 钩子→痛点→发现→体验→总结 |
|
||||
| 信息密集 | 干货输出型 | 教程、对比、清单、推荐 | 核心结论→信息卡→优缺点→推荐 |
|
||||
| 视觉优先 | 氛围美图型 | 高颜值产品、生活方式 | 主图→细节→场景→引导 |
|
||||
|
||||
### 使用方式
|
||||
|
||||
1. 提供内容素材(文章、笔记、文本)
|
||||
2. 指定风格和布局(或让系统自动推荐)
|
||||
3. 系统分析内容,拆分为多张卡片
|
||||
4. 为每张卡片生成提示词并调用文生图
|
||||
|
||||
```bash
|
||||
# 示例:生成小红书卡片图
|
||||
python .opencode/skills/image-service/scripts/text_to_image.py "小红书卡片风格,甜美配色,标题:护肤入门指南,内容要点:1.清洁 2.保湿 3.防晒" -r 3:4 -o xhs_card_01.png
|
||||
```
|
||||
|
||||
### 输出结构
|
||||
|
||||
```
|
||||
xhs-images/{主题}/
|
||||
├── source-{slug}.{ext} # 原始素材
|
||||
├── analysis.md # 内容分析
|
||||
├── outline.md # 最终大纲
|
||||
├── prompts/ # 各卡片提示词
|
||||
│ ├── 01-cover-{slug}.md
|
||||
│ ├── 02-content-{slug}.md
|
||||
│ └── ...
|
||||
├── 01-cover-{slug}.png # 生成的卡片图
|
||||
├── 02-content-{slug}.png
|
||||
└── NN-ending-{slug}.png
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 专业信息图
|
||||
|
||||
20种布局 × 17种视觉风格,自由组合生成专业信息可视化图。
|
||||
|
||||
**触发词**:信息图、可视化、infographic、数据图、知识图谱、流程图
|
||||
|
||||
### 布局表(20种)
|
||||
|
||||
| 布局 | 中文名 | 适用场景 |
|
||||
|------|--------|----------|
|
||||
| `linear-progression` | 线性进程 | 时间线、流程、教程 |
|
||||
| `binary-comparison` | 二元对比 | A vs B、前后对比、优缺点 |
|
||||
| `comparison-matrix` | 对比矩阵 | 多因素对比评测 |
|
||||
| `hierarchical-layers` | 层级金字塔 | 优先级、层次结构 |
|
||||
| `tree-branching` | 树状分支 | 分类、知识体系 |
|
||||
| `hub-spoke` | 中心辐射 | 核心概念 + 关联项 |
|
||||
| `structural-breakdown` | 结构分解 | 拆解视图、剖面图 |
|
||||
| `bento-grid` | 便当格(默认) | 多主题概览、综合展示 |
|
||||
| `iceberg` | 冰山模型 | 表面 vs 深层、显隐对比 |
|
||||
| `bridge` | 桥梁模型 | 问题→解决方案 |
|
||||
| `funnel` | 漏斗模型 | 转化、筛选、收敛 |
|
||||
| `isometric-map` | 等距地图 | 空间关系、场景布局 |
|
||||
| `dashboard` | 仪表盘 | 指标、KPI、数据看板 |
|
||||
| `periodic-table` | 元素周期表 | 分类集合、知识卡 |
|
||||
| `comic-strip` | 漫画条 | 叙事、流程故事化 |
|
||||
| `story-mountain` | 故事山 | 剧情结构、张力弧线 |
|
||||
| `jigsaw` | 拼图模型 | 相互关联的组成部分 |
|
||||
| `venn-diagram` | 维恩图 | 交叉概念、共性分析 |
|
||||
| `winding-roadmap` | 蜿蜒路线图 | 旅程、里程碑、路径 |
|
||||
| `circular-flow` | 循环流 | 周期、迭代、循环过程 |
|
||||
|
||||
### 风格表(17种)
|
||||
|
||||
| 风格 | 中文名 | 说明 |
|
||||
|------|--------|------|
|
||||
| `craft-handmade` | 手工拼贴(默认) | 手绘纸艺感,温暖亲切 |
|
||||
| `claymation` | 黏土动画 | 3D黏土人偶,定格动画感 |
|
||||
| `kawaii` | 卡哇伊 | 日系可爱,粉彩配色 |
|
||||
| `storybook-watercolor` | 绘本水彩 | 柔和水彩,童话感 |
|
||||
| `chalkboard` | 粉笔黑板 | 黑板粉笔画,教育感 |
|
||||
| `cyberpunk-neon` | 赛博霓虹 | 霓虹灯光,未来科技感 |
|
||||
| `bold-graphic` | 漫画粗线 | 漫画风格,网点半调 |
|
||||
| `aged-academia` | 复古学术 | 老派科学手稿,泛黄纸张 |
|
||||
| `corporate-memphis` | 企业孟菲斯 | 扁平矢量,鲜艳活泼 |
|
||||
| `technical-schematic` | 技术蓝图 | 工程制图,蓝底白线 |
|
||||
| `origami` | 折纸 | 几何折叠,纸张质感 |
|
||||
| `pixel-art` | 像素风 | 复古8位游戏风 |
|
||||
| `ui-wireframe` | 线框图 | 灰度界面原型风 |
|
||||
| `subway-map` | 地铁线路图 | 交通图式,线条清晰 |
|
||||
| `ikea-manual` | 宜家说明书 | 极简线稿,无废话 |
|
||||
| `knolling` | 整理摆拍 | 物品俯拍整齐排列 |
|
||||
| `lego-brick` | 乐高积木 | 积木拼搭,玩具感 |
|
||||
|
||||
### 推荐组合
|
||||
|
||||
| 内容类型 | 推荐布局 + 风格 |
|
||||
|----------|-----------------|
|
||||
| 时间线/历史 | 线性进程 + 手工拼贴 |
|
||||
| 步骤教程 | 线性进程 + 宜家说明书 |
|
||||
| A vs B 对比 | 二元对比 + 企业孟菲斯 |
|
||||
| 层级结构 | 层级金字塔 + 手工拼贴 |
|
||||
| 交叉概念 | 维恩图 + 手工拼贴 |
|
||||
| 转化漏斗 | 漏斗模型 + 企业孟菲斯 |
|
||||
| 循环流程 | 循环流 + 手工拼贴 |
|
||||
| 技术架构 | 结构分解 + 技术蓝图 |
|
||||
| 数据指标 | 仪表盘 + 企业孟菲斯 |
|
||||
| 教育科普 | 便当格 + 粉笔黑板 |
|
||||
| 旅程路径 | 蜿蜒路线图 + 绘本水彩 |
|
||||
| 分类集合 | 元素周期表 + 漫画粗线 |
|
||||
|
||||
默认组合:便当格 + 手工拼贴
|
||||
|
||||
### 使用方式
|
||||
|
||||
1. 提供内容素材(文本、数据、大纲)
|
||||
2. 指定布局和风格(或让系统根据内容自动推荐)
|
||||
3. 系统分析内容结构,生成结构化信息图提示词
|
||||
4. 调用文生图生成最终图片
|
||||
|
||||
```bash
|
||||
# 示例:生成专业信息图
|
||||
python .opencode/skills/image-service/scripts/text_to_image.py "信息图,手工拼贴风格,便当格布局,标题:大模型技术栈全景,包含6个模块:数据、预训练、微调、对齐、推理、部署" -r 16:9 -o infographic.png
|
||||
```
|
||||
|
||||
### 核心原则
|
||||
|
||||
- 保留原始数据原文,不擅自总结或改写
|
||||
- 先明确信息传达目标,再组织视觉结构
|
||||
- 标题、标签、图例等文字内容用中文
|
||||
|
||||
### 输出结构
|
||||
|
||||
```
|
||||
infographic/{主题}/
|
||||
├── source-{slug}.{ext} # 原始素材
|
||||
├── analysis.md # 内容分析
|
||||
├── structured-content.md # 结构化内容
|
||||
├── prompts/infographic.md # 生成提示词
|
||||
└── infographic.png # 最终信息图
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 文章封面图
|
||||
|
||||
5维定制系统,为文章、博客、公众号生成精美封面图。
|
||||
|
||||
**触发词**:封面图、文章封面、公众号封面、博客头图、cover image
|
||||
|
||||
### 五维体系
|
||||
|
||||
| 维度 | 可选值 | 默认值 |
|
||||
|------|--------|--------|
|
||||
| **类型** | 主视觉(hero)、概念隐喻(conceptual)、文字排版(typography)、比喻象征(metaphor)、场景叙事(scene)、极简留白(minimal) | 自动 |
|
||||
| **配色** | 暖色(warm)、雅致(elegant)、冷色(cool)、暗黑(dark)、大地色(earth)、鲜艳(vivid)、粉彩(pastel)、黑白(mono)、复古(retro) | 自动 |
|
||||
| **渲染** | 扁平矢量(flat-vector)、手绘(hand-drawn)、绘画(painterly)、数字CG(digital)、像素(pixel)、粉笔(chalk) | 自动 |
|
||||
| **文字** | 无文字(none)、仅标题(title-only)、标题+副标题(title-subtitle)、富文字(text-rich) | 仅标题 |
|
||||
| **氛围** | 内敛(subtle)、均衡(balanced)、强烈(bold) | 均衡 |
|
||||
|
||||
### 配色详情(9种)
|
||||
|
||||
| 配色 | 中文名 | 色彩特征 |
|
||||
|------|--------|----------|
|
||||
| `warm` | 暖色 | 橙红黄,温暖积极 |
|
||||
| `elegant` | 雅致 | 莫兰迪色系,低饱和高级感 |
|
||||
| `cool` | 冷色 | 蓝绿紫,理性科技感 |
|
||||
| `dark` | 暗黑 | 深色背景,对比强烈 |
|
||||
| `earth` | 大地色 | 棕绿土色,自然质朴 |
|
||||
| `vivid` | 鲜艳 | 高饱和撞色,视觉冲击 |
|
||||
| `pastel` | 粉彩 | 马卡龙色,柔和温柔 |
|
||||
| `mono` | 黑白 | 纯黑白灰,经典永恒 |
|
||||
| `retro` | 复古 | 胶片色调,怀旧氛围 |
|
||||
|
||||
### 渲染风格(6种)
|
||||
|
||||
| 渲染 | 中文名 | 说明 |
|
||||
|------|--------|------|
|
||||
| `flat-vector` | 扁平矢量 | 干净利落,现代商务 |
|
||||
| `hand-drawn` | 手绘 | 手绘线条,亲切有趣 |
|
||||
| `painterly` | 绘画 | 油画/水彩质感,艺术感 |
|
||||
| `digital` | 数字CG | 3D渲染,科幻现代 |
|
||||
| `pixel` | 像素 | 像素艺术,怀旧趣味 |
|
||||
| `chalk` | 粉笔 | 黑板粉笔,教育学术 |
|
||||
|
||||
### 使用方式
|
||||
|
||||
1. 提供文章内容或标题
|
||||
2. 指定五个维度(或让系统自动匹配)
|
||||
3. 系统分析文章主题,生成封面提示词
|
||||
4. 调用文生图生成封面
|
||||
|
||||
```bash
|
||||
# 示例:生成文章封面
|
||||
python .opencode/skills/image-service/scripts/text_to_image.py "文章封面,概念隐喻风格,冷色调,扁平矢量渲染,标题:深入理解Transformer架构" -r 16:9 -o cover.png
|
||||
|
||||
# 公众号封面(推荐2.35:1宽幅)
|
||||
python .opencode/skills/image-service/scripts/text_to_image.py "文章封面,暗黑配色,数字CG渲染,极简留白,标题:2025 AI趋势" -r 21:9 -o wechat_cover.png
|
||||
```
|
||||
|
||||
支持比例:`16:9`(标准)、`21:9`(宽幅/电影感)、`4:3`、`3:2`、`1:1`(方形)、`3:4`(竖版)
|
||||
|
||||
---
|
||||
|
||||
## AI图片生成后端(多Provider支持)
|
||||
|
||||
除默认的 IMAGE_API 后端外,还可通过第三方 AI SDK 直接调用 OpenAI / Google / DashScope 等图像生成接口,作为补充方案。
|
||||
|
||||
**触发词**:用OpenAI生成图、用Google生图、DashScope生图、切换生图后端
|
||||
|
||||
### 支持的 Provider
|
||||
|
||||
| Provider | 模型 | 特点 |
|
||||
|----------|------|------|
|
||||
| Google | Imagen 3 | 默认首选,支持参考图多模态 |
|
||||
| OpenAI | gpt-image-1 / dall-e-3 | 高质量,支持图片编辑 |
|
||||
| DashScope | z-image-turbo | 通义万象,中文理解好 |
|
||||
|
||||
### 环境变量
|
||||
|
||||
| 变量 | 说明 |
|
||||
|------|------|
|
||||
| `OPENAI_API_KEY` | OpenAI API 密钥 |
|
||||
| `GOOGLE_API_KEY` | Google API 密钥 |
|
||||
| `DASHSCOPE_API_KEY` | DashScope API 密钥 |
|
||||
| `OPENAI_IMAGE_MODEL` | OpenAI 模型覆盖 |
|
||||
| `GOOGLE_IMAGE_MODEL` | Google 模型覆盖 |
|
||||
| `DASHSCOPE_IMAGE_MODEL` | DashScope 模型覆盖(默认 z-image-turbo) |
|
||||
|
||||
### Provider 自动选择逻辑
|
||||
|
||||
1. 提供了参考图(`--ref`)且未指定 Provider → 优先 Google,其次 OpenAI
|
||||
2. 明确指定 `--provider` → 使用指定的
|
||||
3. 只有一个 API Key 可用 → 使用该 Provider
|
||||
4. 多个可用 → 默认 Google
|
||||
|
||||
### 质量预设
|
||||
|
||||
| 预设 | Google 尺寸 | OpenAI 尺寸 | 适用场景 |
|
||||
|------|-------------|-------------|----------|
|
||||
| `normal` | 1K | 1024px | 快速预览 |
|
||||
| `2k`(默认) | 2K | 2048px | 封面、插画、信息图 |
|
||||
|
||||
### 使用示例
|
||||
|
||||
```bash
|
||||
# 基本用法(需配置对应 API Key)
|
||||
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "一只猫" --image cat.png
|
||||
|
||||
# 指定比例
|
||||
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "风景画" --image out.png --ar 16:9
|
||||
|
||||
# 高质量
|
||||
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "产品图" --image out.png --quality 2k
|
||||
|
||||
# 指定Provider
|
||||
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "一只猫" --image out.png --provider openai
|
||||
|
||||
# 使用参考图
|
||||
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "改为蓝色" --image out.png --ref source.png
|
||||
|
||||
# DashScope(中文场景推荐)
|
||||
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "一只可爱的猫" --image out.png --provider dashscope
|
||||
```
|
||||
|
||||
### 参数列表
|
||||
|
||||
| 参数 | 说明 |
|
||||
|------|------|
|
||||
| `--prompt`, `-p` | 提示词文本 |
|
||||
| `--promptfiles` | 从文件读取提示词(多文件拼接) |
|
||||
| `--image` | 输出图片路径(必填) |
|
||||
| `--provider` | 指定 Provider:google / openai / dashscope |
|
||||
| `--model`, `-m` | 模型 ID |
|
||||
| `--ar` | 宽高比(如 `16:9`, `1:1`) |
|
||||
| `--size` | 尺寸(如 `1024x1024`) |
|
||||
| `--quality` | 质量预设:normal / 2k |
|
||||
| `--ref` | 参考图片 |
|
||||
| `--n` | 生成数量 |
|
||||
| `--json` | JSON 格式输出 |
|
||||
|
||||
---
|
||||
|
||||
## 执行前必做:需求类型判断(铁律)
|
||||
|
||||
**收到图片生成需求后,必须先判断是哪种类型,再决定执行方式:**
|
||||
|
||||
### 长图识别规则
|
||||
|
||||
提示词中出现以下任一特征,即判定为**长图需求**:
|
||||
|
||||
| 特征类型 | 识别关键词/模式 |
|
||||
|---------|---------------|
|
||||
| **明确声明** | 长图、长图海报、垂直长图、微信长图、Infographic、Long Banner |
|
||||
| **分段结构** | 提示词包含多个段落(如"第1部分"、"顶部"、"中间"、"底部")|
|
||||
| **编号列表** | 使用 `### 1.`、`### 2.` 等编号分段 |
|
||||
| **多屏内容** | 描述了3个及以上独立画面/模块 |
|
||||
| **从上至下** | 出现"从上至下"、"从上到下"等描述 |
|
||||
|
||||
### 判断后的执行路径
|
||||
|
||||
```
|
||||
识别为长图 → 必须先读取 references/long-image-guide.md → 按长图流程执行
|
||||
识别为小红书图 → 按「小红书卡片图」章节流程执行
|
||||
识别为信息图 → 按「专业信息图」章节流程执行
|
||||
识别为封面图 → 按「文章封面图」章节流程执行
|
||||
识别为单图 → 直接使用 text_to_image.py 生成
|
||||
```
|
||||
|
||||
**铁律:识别为长图后,禁止直接生成!必须先加载长图指南,按指南流程执行。**
|
||||
|
||||
## 详细指南(按需加载)
|
||||
|
||||
| 场景 | 触发条件 | 参考文档 |
|
||||
|------|---------|---------|
|
||||
| 生成多屏长图 | 命中上述长图识别规则 | `references/long-image-guide.md`(必须加载)|
|
||||
| 图片含中文文字 | 提示词要求图片包含中文标题/文字 | `references/text-rendering-guide.md` |
|
||||
| 为 PPT/文档配图 | 用户提供了配色要求或参考文档 | `references/color-sync-guide.md` |
|
||||
| API 接口细节 | 需要了解底层实现 | `docs/api-reference.md` |
|
||||
| 提示词技巧 | 需要优化提示词效果 | `docs/prompt-guide.md` |
|
||||
|
||||
## 提示词要点
|
||||
|
||||
1. **必须使用中文**撰写提示词
|
||||
2. 图片中的标题、标签**必须为中文**
|
||||
3. 默认宽高比 **16:9**,可通过 `-r` 参数调整
|
||||
4. 推荐风格:信息图、数据可视化、手绘文字、科技插画
|
||||
|
||||
## 触发关键词
|
||||
|
||||
- **生成类**:生成图片、创建图片、文生图、图生图、信息图、数据可视化
|
||||
- **分析类**:分析图片、OCR、识别文字、图生文
|
||||
- **拼接类**:长图、微信长图、拼接图片
|
||||
- **小红书**:小红书图片、小红书卡片、种草图、XHS配图
|
||||
- **信息图**:专业信息图、infographic、知识图谱、流程图、可视化
|
||||
- **封面类**:封面图、文章封面、公众号封面、博客头图
|
||||
- **后端切换**:用OpenAI生图、用Google生图、DashScope生图
|
||||
Reference in New Issue
Block a user