新增16个AI技能:包含图像生成、视频剪辑、数据分析、智能查询等功能模块
This commit is contained in:
233
.opencode/skills/image-service/docs/api-reference.md
Normal file
233
.opencode/skills/image-service/docs/api-reference.md
Normal file
@@ -0,0 +1,233 @@
|
||||
# API 参考文档
|
||||
|
||||
## 概述
|
||||
|
||||
本技能使用两套 API:
|
||||
1. **Lyra Flash API** - 用于图像生成和编辑(文生图、图生图)
|
||||
2. **Qwen2.5-VL API** - 用于视觉识别(图生文)
|
||||
|
||||
---
|
||||
|
||||
## 一、Lyra Flash API(图像生成)
|
||||
|
||||
### 1.1 基础配置
|
||||
|
||||
| 配置项 | 值 |
|
||||
|-------|-----|
|
||||
| Base URL | `${IMAGE_API_BASE_URL}` |
|
||||
| Model | `lyra-flash-9` |
|
||||
| 认证方式 | Bearer Token |
|
||||
|
||||
### 1.2 文生图接口
|
||||
|
||||
**端点**
|
||||
```
|
||||
POST /images/generations
|
||||
```
|
||||
|
||||
**请求头**
|
||||
```json
|
||||
{
|
||||
"Content-Type": "application/json",
|
||||
"Authorization": "Bearer ${IMAGE_API_KEY}"
|
||||
}
|
||||
```
|
||||
|
||||
**请求体**
|
||||
```json
|
||||
{
|
||||
"model": "lyra-flash-9",
|
||||
"prompt": "中文图像描述",
|
||||
"size": "1792x1024",
|
||||
"response_format": "b64_json"
|
||||
}
|
||||
```
|
||||
|
||||
**参数说明**
|
||||
|
||||
| 参数 | 类型 | 必填 | 说明 |
|
||||
|-----|------|-----|------|
|
||||
| model | string | 是 | 固定使用 `lyra-flash-9` |
|
||||
| prompt | string | 是 | 中文图像生成提示词 |
|
||||
| size | string | 否 | 图片尺寸,默认 `1792x1024` |
|
||||
| response_format | string | 否 | 响应格式,推荐 `b64_json` |
|
||||
|
||||
**响应体**
|
||||
```json
|
||||
{
|
||||
"created": 1641234567,
|
||||
"data": [
|
||||
{
|
||||
"b64_json": "base64编码的图片数据"
|
||||
}
|
||||
]
|
||||
}
|
||||
```
|
||||
|
||||
### 1.3 图生图接口
|
||||
|
||||
**端点**
|
||||
```
|
||||
POST /images/edits
|
||||
```
|
||||
|
||||
**请求体**
|
||||
```json
|
||||
{
|
||||
"model": "lyra-flash-9",
|
||||
"prompt": "中文编辑指令",
|
||||
"image": "data:image/png;base64,{base64数据}",
|
||||
"size": "1792x1024",
|
||||
"response_format": "b64_json"
|
||||
}
|
||||
```
|
||||
|
||||
**参数说明**
|
||||
|
||||
| 参数 | 类型 | 必填 | 说明 |
|
||||
|-----|------|-----|------|
|
||||
| model | string | 是 | 固定使用 `lyra-flash-9` |
|
||||
| prompt | string | 是 | 中文图片编辑指令 |
|
||||
| image | string | 是 | Base64 编码的参考图片(含 data URL 前缀) |
|
||||
| size | string | 否 | 输出尺寸 |
|
||||
| response_format | string | 否 | 响应格式 |
|
||||
|
||||
**响应体**
|
||||
```json
|
||||
{
|
||||
"data": [
|
||||
{
|
||||
"b64_json": "base64编码的生成图片"
|
||||
}
|
||||
]
|
||||
}
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 二、Qwen2.5-VL API(视觉识别)
|
||||
|
||||
### 2.1 基础配置
|
||||
|
||||
| 配置项 | 值 |
|
||||
|-------|-----|
|
||||
| Base URL | `${IMAGE_API_BASE_URL}` |
|
||||
| Model | `qwen2.5-vl-72b-instruct` |
|
||||
| 认证方式 | Bearer Token |
|
||||
|
||||
### 2.2 图生文接口
|
||||
|
||||
**端点**
|
||||
```
|
||||
POST /chat/completions
|
||||
```
|
||||
|
||||
**请求头**
|
||||
```json
|
||||
{
|
||||
"Content-Type": "application/json",
|
||||
"Authorization": "Bearer ${VISION_API_KEY}"
|
||||
}
|
||||
```
|
||||
|
||||
**请求体**
|
||||
```json
|
||||
{
|
||||
"model": "qwen2.5-vl-72b-instruct",
|
||||
"messages": [
|
||||
{
|
||||
"role": "user",
|
||||
"content": [
|
||||
{
|
||||
"type": "text",
|
||||
"text": "请描述这张图片"
|
||||
},
|
||||
{
|
||||
"type": "image_url",
|
||||
"image_url": {
|
||||
"url": "data:image/jpeg;base64,{base64数据}"
|
||||
}
|
||||
}
|
||||
]
|
||||
}
|
||||
],
|
||||
"max_tokens": 2000,
|
||||
"temperature": 0.7
|
||||
}
|
||||
```
|
||||
|
||||
**参数说明**
|
||||
|
||||
| 参数 | 类型 | 必填 | 说明 |
|
||||
|-----|------|-----|------|
|
||||
| model | string | 是 | 视觉模型名称 |
|
||||
| messages | array | 是 | 消息列表,包含文本和图片 |
|
||||
| max_tokens | int | 否 | 最大输出 token 数 |
|
||||
| temperature | float | 否 | 温度参数(0-1) |
|
||||
|
||||
**响应体**
|
||||
```json
|
||||
{
|
||||
"id": "chatcmpl-xxx",
|
||||
"object": "chat.completion",
|
||||
"created": 1641234567,
|
||||
"choices": [
|
||||
{
|
||||
"index": 0,
|
||||
"message": {
|
||||
"role": "assistant",
|
||||
"content": "这是一张..."
|
||||
},
|
||||
"finish_reason": "stop"
|
||||
}
|
||||
],
|
||||
"usage": {
|
||||
"prompt_tokens": 100,
|
||||
"completion_tokens": 50,
|
||||
"total_tokens": 150
|
||||
}
|
||||
}
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 三、错误码说明
|
||||
|
||||
| 状态码 | 说明 | 处理建议 |
|
||||
|-------|------|---------|
|
||||
| 400 | 请求参数错误 | 检查请求体格式和参数 |
|
||||
| 401 | API 密钥无效 | 检查 API Key 是否正确 |
|
||||
| 403 | 权限不足 | 检查 API Key 权限 |
|
||||
| 429 | 请求频率限制 | 等待后重试 |
|
||||
| 500 | 服务器内部错误 | 稍后重试 |
|
||||
| 503 | 服务不可用 | 稍后重试 |
|
||||
|
||||
---
|
||||
|
||||
## 四、最佳实践
|
||||
|
||||
### 4.1 超时设置
|
||||
|
||||
- 文生图:建议 120-180 秒
|
||||
- 图生图:建议 180-300 秒
|
||||
- 图生文:建议 60-120 秒
|
||||
|
||||
### 4.2 重试策略
|
||||
|
||||
建议实现指数退避重试:
|
||||
1. 首次重试:等待 1 秒
|
||||
2. 第二次重试:等待 2 秒
|
||||
3. 第三次重试:等待 4 秒
|
||||
|
||||
### 4.3 图片格式
|
||||
|
||||
- 支持格式:PNG、JPG、JPEG、WebP、GIF
|
||||
- 推荐格式:PNG(无损)或 JPEG(有损但体积小)
|
||||
- 最大文件大小:建议不超过 4MB
|
||||
|
||||
### 4.4 Base64 编码
|
||||
|
||||
图片必须使用完整的 Data URL 格式:
|
||||
```
|
||||
data:image/png;base64,iVBORw0KGgo...
|
||||
```
|
||||
215
.opencode/skills/image-service/docs/prompt-guide.md
Normal file
215
.opencode/skills/image-service/docs/prompt-guide.md
Normal file
@@ -0,0 +1,215 @@
|
||||
# 提示词指南
|
||||
|
||||
## 概述
|
||||
|
||||
本指南提供文生图、图生图和图生文三种场景的提示词编写规范和最佳实践。
|
||||
|
||||
---
|
||||
|
||||
## 一、文生图提示词
|
||||
|
||||
### 1.1 基本规则
|
||||
|
||||
1. **必须使用中文**撰写提示词
|
||||
2. 图片中的标题、说明、标签**必须为中文**
|
||||
3. 默认尺寸为 **16:9(1792x1024)**
|
||||
4. 结构化描述效果更好
|
||||
|
||||
### 1.2 标准模板
|
||||
|
||||
```
|
||||
[风格类型],[艺术效果],[分辨率]。
|
||||
标题:[中文标题]。
|
||||
视觉元素:[主体对象、结构、场景描述]。
|
||||
配色:[主色调方案]。
|
||||
类型:[具体类型]。
|
||||
```
|
||||
|
||||
### 1.3 推荐风格
|
||||
|
||||
| 风格 | 适用场景 |
|
||||
|-----|---------|
|
||||
| 信息图风格 | 数据展示、流程说明 |
|
||||
| 数据可视化 | 图表、统计数据 |
|
||||
| 手绘文字风格 | 笔记、教程 |
|
||||
| 科技插画风 | 技术文章配图 |
|
||||
| 扁平化设计 | UI/UX 展示 |
|
||||
| 3D 渲染风格 | 产品展示 |
|
||||
|
||||
### 1.4 示例
|
||||
|
||||
**信息图类**
|
||||
```
|
||||
信息图风格插图,手绘文字风格,高清16:9。
|
||||
标题:AI技术发展趋势。
|
||||
视觉元素:中央AI芯片图标,周围连接云计算、大数据、机器学习图标。
|
||||
配色:科技蓝和白色。
|
||||
类型:信息图。
|
||||
```
|
||||
|
||||
**数据可视化类**
|
||||
```
|
||||
数据可视化风格,中文标注,高清16:9。
|
||||
标题:2026年AI投资趋势。
|
||||
视觉元素:柱状图、增长箭头、美元符号。
|
||||
配色:金色和科技蓝。
|
||||
类型:数据可视化。
|
||||
```
|
||||
|
||||
**产品展示类**
|
||||
```
|
||||
3D产品渲染风格,光影效果,高清16:9。
|
||||
标题:智能手表新品发布。
|
||||
视觉元素:手表主体居中,周围展示核心功能图标。
|
||||
配色:深空灰和玫瑰金。
|
||||
类型:产品展示。
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 二、图生图提示词
|
||||
|
||||
### 2.1 基本规则
|
||||
|
||||
1. 明确指出**保留什么**和**修改什么**
|
||||
2. 描述**目标风格**和**期望效果**
|
||||
3. 提供具体的**细节要求**
|
||||
|
||||
### 2.2 标准模板
|
||||
|
||||
```
|
||||
基于原图进行编辑,[编辑描述]。
|
||||
保持:[需要保留的元素]。
|
||||
修改:[需要修改的部分]。
|
||||
风格:[目标风格]。
|
||||
细节:[具体的细节要求]。
|
||||
```
|
||||
|
||||
### 2.3 编辑类型
|
||||
|
||||
| 类型 | 说明 | 示例 |
|
||||
|-----|------|-----|
|
||||
| 风格迁移 | 改变整体风格 | 转为油画风格 |
|
||||
| 背景替换 | 更换背景 | 将背景改为海滩 |
|
||||
| 元素添加 | 添加新元素 | 添加文字标题 |
|
||||
| 元素删除 | 移除元素 | 删除背景人物 |
|
||||
| 色调调整 | 改变颜色 | 转为暖色调 |
|
||||
| 质量增强 | 提升质量 | 增加细节和清晰度 |
|
||||
|
||||
### 2.4 示例
|
||||
|
||||
**风格迁移**
|
||||
```
|
||||
基于原图进行编辑,将整体风格改为科技蓝色调的信息图。
|
||||
保持:主体元素和构图。
|
||||
修改:所有文字替换为中文标注,背景改为深蓝渐变。
|
||||
风格:现代科技感信息图。
|
||||
细节:添加数据流动效果和光点装饰。
|
||||
```
|
||||
|
||||
**人物编辑**
|
||||
```
|
||||
基于原图进行编辑,将人物转换为3D科幻风格。
|
||||
保持:人物姿态和面部特征。
|
||||
修改:服装改为未来感战斗服,增加全息UI界面。
|
||||
风格:类似钢铁侠贾维斯系统。
|
||||
细节:添加蓝色全息光效和数据面板。
|
||||
```
|
||||
|
||||
**背景替换**
|
||||
```
|
||||
基于原图进行编辑,替换背景为深色科技空间。
|
||||
保持:原图主体比例和清晰度。
|
||||
修改:背景完全替换,添加中文标题与数据标签。
|
||||
风格:深色科技风格。
|
||||
细节:背景添加星空和网格线条。
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 三、图生文提示词
|
||||
|
||||
### 3.1 分析模式
|
||||
|
||||
| 模式 | 用途 | 提示词 |
|
||||
|-----|------|-------|
|
||||
| describe | 通用描述 | 详细描述图片内容 |
|
||||
| ocr | 文字识别 | 识别图片中的所有文字 |
|
||||
| chart | 图表分析 | 分析图表数据和趋势 |
|
||||
| fashion | 穿搭分析 | 分析人物服装搭配 |
|
||||
| product | 产品分析 | 分析产品特征 |
|
||||
| scene | 场景分析 | 描述场景环境 |
|
||||
|
||||
### 3.2 自定义提示词示例
|
||||
|
||||
**详细描述**
|
||||
```
|
||||
请详细描述这张图片的内容,包括:
|
||||
1. 人物特征和表情
|
||||
2. 服装样式和颜色
|
||||
3. 画面布局和构图
|
||||
4. 艺术风格或摄影风格
|
||||
5. 任何文字标注或说明
|
||||
6. 背景环境和其他细节
|
||||
```
|
||||
|
||||
**OCR识别**
|
||||
```
|
||||
请仔细识别这张图片中的所有文字内容,包括:
|
||||
1. 标题和副标题
|
||||
2. 正文内容
|
||||
3. 图表标签
|
||||
4. 按钮文字
|
||||
5. 其他任何可见的文字
|
||||
|
||||
请按照文字在图片中的位置顺序,以清晰的格式输出识别结果。
|
||||
```
|
||||
|
||||
**图表分析**
|
||||
```
|
||||
请分析这张图表的内容,包括:
|
||||
1. 图表类型(柱状图、折线图、饼图等)
|
||||
2. 主要数据趋势
|
||||
3. 关键数据点
|
||||
4. 图表标题和标签
|
||||
5. 数据的结论或洞察
|
||||
|
||||
请用中文详细描述图表传达的信息。
|
||||
```
|
||||
|
||||
**穿搭分析**
|
||||
```
|
||||
请分析这张图片中人物的穿搭,包括:
|
||||
1. 上装:款式、颜色、材质
|
||||
2. 下装:款式、颜色、材质
|
||||
3. 鞋履:类型、颜色
|
||||
4. 配饰:包包、帽子、眼镜、饰品等
|
||||
5. 整体风格:休闲/商务/运动/时尚等
|
||||
6. 搭配建议和点评
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 四、最佳实践
|
||||
|
||||
### 4.1 提示词优化技巧
|
||||
|
||||
1. **具体明确**:避免模糊描述,使用具体词汇
|
||||
2. **结构清晰**:使用分点或模板结构
|
||||
3. **重点突出**:将最重要的要求放在前面
|
||||
4. **适度详细**:提供足够细节但不要过于冗长
|
||||
|
||||
### 4.2 常见问题
|
||||
|
||||
| 问题 | 原因 | 解决方案 |
|
||||
|-----|------|---------|
|
||||
| 生成结果与描述不符 | 提示词不够具体 | 添加更多细节描述 |
|
||||
| 中文显示异常 | 未强调中文要求 | 明确指定"中文标注" |
|
||||
| 风格不统一 | 风格描述模糊 | 使用具体的风格参考 |
|
||||
| 元素缺失 | 未明确列出元素 | 逐一列出所需元素 |
|
||||
|
||||
### 4.3 提示词长度建议
|
||||
|
||||
- 文生图:100-300 字
|
||||
- 图生图:50-200 字
|
||||
- 图生文:50-150 字
|
||||
Reference in New Issue
Block a user