新增16个AI技能：包含图像生成、视频剪辑、数据分析、智能查询等功能模块

2026-02-13 20:18:38 +08:00
parent 456cd45de4
commit 8200a17176
154 changed files with 14585 additions and 1 deletions
--- a/.opencode/skills/image-service/docs/api-reference.md
+++ b/.opencode/skills/image-service/docs/api-reference.md
@@ -0,0 +1,233 @@
+# API 参考文档
+
+## 概述
+
+本技能使用两套 API：
+1. **Lyra Flash API** - 用于图像生成和编辑（文生图、图生图）
+2. **Qwen2.5-VL API** - 用于视觉识别（图生文）
+
+---
+
+## 一、Lyra Flash API（图像生成）
+
+### 1.1 基础配置
+
+| 配置项 | 值 |
+|-------|-----|
+| Base URL | `${IMAGE_API_BASE_URL}` |
+| Model | `lyra-flash-9` |
+| 认证方式 | Bearer Token |
+
+### 1.2 文生图接口
+
+**端点**
+```
+POST /images/generations
+```
+
+**请求头**
+```json
+{
+  "Content-Type": "application/json",
+  "Authorization": "Bearer ${IMAGE_API_KEY}"
+}
+```
+
+**请求体**
+```json
+{
+  "model": "lyra-flash-9",
+  "prompt": "中文图像描述",
+  "size": "1792x1024",
+  "response_format": "b64_json"
+}
+```
+
+**参数说明**
+
+| 参数 | 类型 | 必填 | 说明 |
+|-----|------|-----|------|
+| model | string | 是 | 固定使用 `lyra-flash-9` |
+| prompt | string | 是 | 中文图像生成提示词 |
+| size | string | 否 | 图片尺寸，默认 `1792x1024` |
+| response_format | string | 否 | 响应格式，推荐 `b64_json` |
+
+**响应体**
+```json
+{
+  "created": 1641234567,
+  "data": [
+    {
+      "b64_json": "base64编码的图片数据"
+    }
+  ]
+}
+```
+
+### 1.3 图生图接口
+
+**端点**
+```
+POST /images/edits
+```
+
+**请求体**
+```json
+{
+  "model": "lyra-flash-9",
+  "prompt": "中文编辑指令",
+  "image": "data:image/png;base64,{base64数据}",
+  "size": "1792x1024",
+  "response_format": "b64_json"
+}
+```
+
+**参数说明**
+
+| 参数 | 类型 | 必填 | 说明 |
+|-----|------|-----|------|
+| model | string | 是 | 固定使用 `lyra-flash-9` |
+| prompt | string | 是 | 中文图片编辑指令 |
+| image | string | 是 | Base64 编码的参考图片（含 data URL 前缀） |
+| size | string | 否 | 输出尺寸 |
+| response_format | string | 否 | 响应格式 |
+
+**响应体**
+```json
+{
+  "data": [
+    {
+      "b64_json": "base64编码的生成图片"
+    }
+  ]
+}
+```
+
+---
+
+## 二、Qwen2.5-VL API（视觉识别）
+
+### 2.1 基础配置
+
+| 配置项 | 值 |
+|-------|-----|
+| Base URL | `${IMAGE_API_BASE_URL}` |
+| Model | `qwen2.5-vl-72b-instruct` |
+| 认证方式 | Bearer Token |
+
+### 2.2 图生文接口
+
+**端点**
+```
+POST /chat/completions
+```
+
+**请求头**
+```json
+{
+  "Content-Type": "application/json",
+  "Authorization": "Bearer ${VISION_API_KEY}"
+}
+```
+
+**请求体**
+```json
+{
+  "model": "qwen2.5-vl-72b-instruct",
+  "messages": [
+    {
+      "role": "user",
+      "content": [
+        {
+          "type": "text",
+          "text": "请描述这张图片"
+        },
+        {
+          "type": "image_url",
+          "image_url": {
+            "url": "data:image/jpeg;base64,{base64数据}"
+          }
+        }
+      ]
+    }
+  ],
+  "max_tokens": 2000,
+  "temperature": 0.7
+}
+```
+
+**参数说明**
+
+| 参数 | 类型 | 必填 | 说明 |
+|-----|------|-----|------|
+| model | string | 是 | 视觉模型名称 |
+| messages | array | 是 | 消息列表，包含文本和图片 |
+| max_tokens | int | 否 | 最大输出 token 数 |
+| temperature | float | 否 | 温度参数（0-1） |
+
+**响应体**
+```json
+{
+  "id": "chatcmpl-xxx",
+  "object": "chat.completion",
+  "created": 1641234567,
+  "choices": [
+    {
+      "index": 0,
+      "message": {
+        "role": "assistant",
+        "content": "这是一张..."
+      },
+      "finish_reason": "stop"
+    }
+  ],
+  "usage": {
+    "prompt_tokens": 100,
+    "completion_tokens": 50,
+    "total_tokens": 150
+  }
+}
+```
+
+---
+
+## 三、错误码说明
+
+| 状态码 | 说明 | 处理建议 |
+|-------|------|---------|
+| 400 | 请求参数错误 | 检查请求体格式和参数 |
+| 401 | API 密钥无效 | 检查 API Key 是否正确 |
+| 403 | 权限不足 | 检查 API Key 权限 |
+| 429 | 请求频率限制 | 等待后重试 |
+| 500 | 服务器内部错误 | 稍后重试 |
+| 503 | 服务不可用 | 稍后重试 |
+
+---
+
+## 四、最佳实践
+
+### 4.1 超时设置
+
+- 文生图：建议 120-180 秒
+- 图生图：建议 180-300 秒
+- 图生文：建议 60-120 秒
+
+### 4.2 重试策略
+
+建议实现指数退避重试：
+1. 首次重试：等待 1 秒
+2. 第二次重试：等待 2 秒
+3. 第三次重试：等待 4 秒
+
+### 4.3 图片格式
+
+- 支持格式：PNG、JPG、JPEG、WebP、GIF
+- 推荐格式：PNG（无损）或 JPEG（有损但体积小）
+- 最大文件大小：建议不超过 4MB
+
+### 4.4 Base64 编码
+
+图片必须使用完整的 Data URL 格式：
+```
+data:image/png;base64,iVBORw0KGgo...
+```
--- a/.opencode/skills/image-service/docs/prompt-guide.md
+++ b/.opencode/skills/image-service/docs/prompt-guide.md
@@ -0,0 +1,215 @@
+# 提示词指南
+
+## 概述
+
+本指南提供文生图、图生图和图生文三种场景的提示词编写规范和最佳实践。
+
+---
+
+## 一、文生图提示词
+
+### 1.1 基本规则
+
+1. **必须使用中文**撰写提示词
+2. 图片中的标题、说明、标签**必须为中文**
+3. 默认尺寸为 **16:9（1792x1024）**
+4. 结构化描述效果更好
+
+### 1.2 标准模板
+
+```
+[风格类型]，[艺术效果]，[分辨率]。
+标题：[中文标题]。
+视觉元素：[主体对象、结构、场景描述]。
+配色：[主色调方案]。
+类型：[具体类型]。
+```
+
+### 1.3 推荐风格
+
+| 风格 | 适用场景 |
+|-----|---------|
+| 信息图风格 | 数据展示、流程说明 |
+| 数据可视化 | 图表、统计数据 |
+| 手绘文字风格 | 笔记、教程 |
+| 科技插画风 | 技术文章配图 |
+| 扁平化设计 | UI/UX 展示 |
+| 3D 渲染风格 | 产品展示 |
+
+### 1.4 示例
+
+**信息图类**
+```
+信息图风格插图，手绘文字风格，高清16:9。
+标题：AI技术发展趋势。
+视觉元素：中央AI芯片图标，周围连接云计算、大数据、机器学习图标。
+配色：科技蓝和白色。
+类型：信息图。
+```
+
+**数据可视化类**
+```
+数据可视化风格，中文标注，高清16:9。
+标题：2026年AI投资趋势。
+视觉元素：柱状图、增长箭头、美元符号。
+配色：金色和科技蓝。
+类型：数据可视化。
+```
+
+**产品展示类**
+```
+3D产品渲染风格，光影效果，高清16:9。
+标题：智能手表新品发布。
+视觉元素：手表主体居中，周围展示核心功能图标。
+配色：深空灰和玫瑰金。
+类型：产品展示。
+```
+
+---
+
+## 二、图生图提示词
+
+### 2.1 基本规则
+
+1. 明确指出**保留什么**和**修改什么**
+2. 描述**目标风格**和**期望效果**
+3. 提供具体的**细节要求**
+
+### 2.2 标准模板
+
+```
+基于原图进行编辑，[编辑描述]。
+保持：[需要保留的元素]。
+修改：[需要修改的部分]。
+风格：[目标风格]。
+细节：[具体的细节要求]。
+```
+
+### 2.3 编辑类型
+
+| 类型 | 说明 | 示例 |
+|-----|------|-----|
+| 风格迁移 | 改变整体风格 | 转为油画风格 |
+| 背景替换 | 更换背景 | 将背景改为海滩 |
+| 元素添加 | 添加新元素 | 添加文字标题 |
+| 元素删除 | 移除元素 | 删除背景人物 |
+| 色调调整 | 改变颜色 | 转为暖色调 |
+| 质量增强 | 提升质量 | 增加细节和清晰度 |
+
+### 2.4 示例
+
+**风格迁移**
+```
+基于原图进行编辑，将整体风格改为科技蓝色调的信息图。
+保持：主体元素和构图。
+修改：所有文字替换为中文标注，背景改为深蓝渐变。
+风格：现代科技感信息图。
+细节：添加数据流动效果和光点装饰。
+```
+
+**人物编辑**
+```
+基于原图进行编辑，将人物转换为3D科幻风格。
+保持：人物姿态和面部特征。
+修改：服装改为未来感战斗服，增加全息UI界面。
+风格：类似钢铁侠贾维斯系统。
+细节：添加蓝色全息光效和数据面板。
+```
+
+**背景替换**
+```
+基于原图进行编辑，替换背景为深色科技空间。
+保持：原图主体比例和清晰度。
+修改：背景完全替换，添加中文标题与数据标签。
+风格：深色科技风格。
+细节：背景添加星空和网格线条。
+```
+
+---
+
+## 三、图生文提示词
+
+### 3.1 分析模式
+
+| 模式 | 用途 | 提示词 |
+|-----|------|-------|
+| describe | 通用描述 | 详细描述图片内容 |
+| ocr | 文字识别 | 识别图片中的所有文字 |
+| chart | 图表分析 | 分析图表数据和趋势 |
+| fashion | 穿搭分析 | 分析人物服装搭配 |
+| product | 产品分析 | 分析产品特征 |
+| scene | 场景分析 | 描述场景环境 |
+
+### 3.2 自定义提示词示例
+
+**详细描述**
+```
+请详细描述这张图片的内容，包括：
+1. 人物特征和表情
+2. 服装样式和颜色
+3. 画面布局和构图
+4. 艺术风格或摄影风格
+5. 任何文字标注或说明
+6. 背景环境和其他细节
+```
+
+**OCR识别**
+```
+请仔细识别这张图片中的所有文字内容，包括：
+1. 标题和副标题
+2. 正文内容
+3. 图表标签
+4. 按钮文字
+5. 其他任何可见的文字
+
+请按照文字在图片中的位置顺序，以清晰的格式输出识别结果。
+```
+
+**图表分析**
+```
+请分析这张图表的内容，包括：
+1. 图表类型（柱状图、折线图、饼图等）
+2. 主要数据趋势
+3. 关键数据点
+4. 图表标题和标签
+5. 数据的结论或洞察
+
+请用中文详细描述图表传达的信息。
+```
+
+**穿搭分析**
+```
+请分析这张图片中人物的穿搭，包括：
+1. 上装：款式、颜色、材质
+2. 下装：款式、颜色、材质
+3. 鞋履：类型、颜色
+4. 配饰：包包、帽子、眼镜、饰品等
+5. 整体风格：休闲/商务/运动/时尚等
+6. 搭配建议和点评
+```
+
+---
+
+## 四、最佳实践
+
+### 4.1 提示词优化技巧
+
+1. **具体明确**：避免模糊描述，使用具体词汇
+2. **结构清晰**：使用分点或模板结构
+3. **重点突出**：将最重要的要求放在前面
+4. **适度详细**：提供足够细节但不要过于冗长
+
+### 4.2 常见问题
+
+| 问题 | 原因 | 解决方案 |
+|-----|------|---------|
+| 生成结果与描述不符 | 提示词不够具体 | 添加更多细节描述 |
+| 中文显示异常 | 未强调中文要求 | 明确指定"中文标注" |
+| 风格不统一 | 风格描述模糊 | 使用具体的风格参考 |
+| 元素缺失 | 未明确列出元素 | 逐一列出所需元素 |
+
+### 4.3 提示词长度建议
+
+- 文生图：100-300 字
+- 图生图：50-200 字
+- 图生文：50-150 字