新增16个AI技能:包含图像生成、视频剪辑、数据分析、智能查询等功能模块

This commit is contained in:
hmo
2026-02-13 20:18:38 +08:00
parent 456cd45de4
commit 8200a17176
154 changed files with 14585 additions and 1 deletions

View File

@@ -0,0 +1,233 @@
# API 参考文档
## 概述
本技能使用两套 API
1. **Lyra Flash API** - 用于图像生成和编辑(文生图、图生图)
2. **Qwen2.5-VL API** - 用于视觉识别(图生文)
---
## 一、Lyra Flash API图像生成
### 1.1 基础配置
| 配置项 | 值 |
|-------|-----|
| Base URL | `${IMAGE_API_BASE_URL}` |
| Model | `lyra-flash-9` |
| 认证方式 | Bearer Token |
### 1.2 文生图接口
**端点**
```
POST /images/generations
```
**请求头**
```json
{
"Content-Type": "application/json",
"Authorization": "Bearer ${IMAGE_API_KEY}"
}
```
**请求体**
```json
{
"model": "lyra-flash-9",
"prompt": "中文图像描述",
"size": "1792x1024",
"response_format": "b64_json"
}
```
**参数说明**
| 参数 | 类型 | 必填 | 说明 |
|-----|------|-----|------|
| model | string | 是 | 固定使用 `lyra-flash-9` |
| prompt | string | 是 | 中文图像生成提示词 |
| size | string | 否 | 图片尺寸,默认 `1792x1024` |
| response_format | string | 否 | 响应格式,推荐 `b64_json` |
**响应体**
```json
{
"created": 1641234567,
"data": [
{
"b64_json": "base64编码的图片数据"
}
]
}
```
### 1.3 图生图接口
**端点**
```
POST /images/edits
```
**请求体**
```json
{
"model": "lyra-flash-9",
"prompt": "中文编辑指令",
"image": "data:image/png;base64,{base64数据}",
"size": "1792x1024",
"response_format": "b64_json"
}
```
**参数说明**
| 参数 | 类型 | 必填 | 说明 |
|-----|------|-----|------|
| model | string | 是 | 固定使用 `lyra-flash-9` |
| prompt | string | 是 | 中文图片编辑指令 |
| image | string | 是 | Base64 编码的参考图片(含 data URL 前缀) |
| size | string | 否 | 输出尺寸 |
| response_format | string | 否 | 响应格式 |
**响应体**
```json
{
"data": [
{
"b64_json": "base64编码的生成图片"
}
]
}
```
---
## 二、Qwen2.5-VL API视觉识别
### 2.1 基础配置
| 配置项 | 值 |
|-------|-----|
| Base URL | `${IMAGE_API_BASE_URL}` |
| Model | `qwen2.5-vl-72b-instruct` |
| 认证方式 | Bearer Token |
### 2.2 图生文接口
**端点**
```
POST /chat/completions
```
**请求头**
```json
{
"Content-Type": "application/json",
"Authorization": "Bearer ${VISION_API_KEY}"
}
```
**请求体**
```json
{
"model": "qwen2.5-vl-72b-instruct",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "请描述这张图片"
},
{
"type": "image_url",
"image_url": {
"url": "data:image/jpeg;base64,{base64数据}"
}
}
]
}
],
"max_tokens": 2000,
"temperature": 0.7
}
```
**参数说明**
| 参数 | 类型 | 必填 | 说明 |
|-----|------|-----|------|
| model | string | 是 | 视觉模型名称 |
| messages | array | 是 | 消息列表,包含文本和图片 |
| max_tokens | int | 否 | 最大输出 token 数 |
| temperature | float | 否 | 温度参数0-1 |
**响应体**
```json
{
"id": "chatcmpl-xxx",
"object": "chat.completion",
"created": 1641234567,
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "这是一张..."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 100,
"completion_tokens": 50,
"total_tokens": 150
}
}
```
---
## 三、错误码说明
| 状态码 | 说明 | 处理建议 |
|-------|------|---------|
| 400 | 请求参数错误 | 检查请求体格式和参数 |
| 401 | API 密钥无效 | 检查 API Key 是否正确 |
| 403 | 权限不足 | 检查 API Key 权限 |
| 429 | 请求频率限制 | 等待后重试 |
| 500 | 服务器内部错误 | 稍后重试 |
| 503 | 服务不可用 | 稍后重试 |
---
## 四、最佳实践
### 4.1 超时设置
- 文生图:建议 120-180 秒
- 图生图:建议 180-300 秒
- 图生文:建议 60-120 秒
### 4.2 重试策略
建议实现指数退避重试:
1. 首次重试:等待 1 秒
2. 第二次重试:等待 2 秒
3. 第三次重试:等待 4 秒
### 4.3 图片格式
- 支持格式PNG、JPG、JPEG、WebP、GIF
- 推荐格式PNG无损或 JPEG有损但体积小
- 最大文件大小:建议不超过 4MB
### 4.4 Base64 编码
图片必须使用完整的 Data URL 格式:
```
data:image/png;base64,iVBORw0KGgo...
```

View File

@@ -0,0 +1,215 @@
# 提示词指南
## 概述
本指南提供文生图、图生图和图生文三种场景的提示词编写规范和最佳实践。
---
## 一、文生图提示词
### 1.1 基本规则
1. **必须使用中文**撰写提示词
2. 图片中的标题、说明、标签**必须为中文**
3. 默认尺寸为 **16:91792x1024**
4. 结构化描述效果更好
### 1.2 标准模板
```
[风格类型][艺术效果][分辨率]。
标题:[中文标题]。
视觉元素:[主体对象、结构、场景描述]。
配色:[主色调方案]。
类型:[具体类型]。
```
### 1.3 推荐风格
| 风格 | 适用场景 |
|-----|---------|
| 信息图风格 | 数据展示、流程说明 |
| 数据可视化 | 图表、统计数据 |
| 手绘文字风格 | 笔记、教程 |
| 科技插画风 | 技术文章配图 |
| 扁平化设计 | UI/UX 展示 |
| 3D 渲染风格 | 产品展示 |
### 1.4 示例
**信息图类**
```
信息图风格插图手绘文字风格高清16:9。
标题AI技术发展趋势。
视觉元素中央AI芯片图标周围连接云计算、大数据、机器学习图标。
配色:科技蓝和白色。
类型:信息图。
```
**数据可视化类**
```
数据可视化风格中文标注高清16:9。
标题2026年AI投资趋势。
视觉元素:柱状图、增长箭头、美元符号。
配色:金色和科技蓝。
类型:数据可视化。
```
**产品展示类**
```
3D产品渲染风格光影效果高清16:9。
标题:智能手表新品发布。
视觉元素:手表主体居中,周围展示核心功能图标。
配色:深空灰和玫瑰金。
类型:产品展示。
```
---
## 二、图生图提示词
### 2.1 基本规则
1. 明确指出**保留什么**和**修改什么**
2. 描述**目标风格**和**期望效果**
3. 提供具体的**细节要求**
### 2.2 标准模板
```
基于原图进行编辑,[编辑描述]。
保持:[需要保留的元素]。
修改:[需要修改的部分]。
风格:[目标风格]。
细节:[具体的细节要求]。
```
### 2.3 编辑类型
| 类型 | 说明 | 示例 |
|-----|------|-----|
| 风格迁移 | 改变整体风格 | 转为油画风格 |
| 背景替换 | 更换背景 | 将背景改为海滩 |
| 元素添加 | 添加新元素 | 添加文字标题 |
| 元素删除 | 移除元素 | 删除背景人物 |
| 色调调整 | 改变颜色 | 转为暖色调 |
| 质量增强 | 提升质量 | 增加细节和清晰度 |
### 2.4 示例
**风格迁移**
```
基于原图进行编辑,将整体风格改为科技蓝色调的信息图。
保持:主体元素和构图。
修改:所有文字替换为中文标注,背景改为深蓝渐变。
风格:现代科技感信息图。
细节:添加数据流动效果和光点装饰。
```
**人物编辑**
```
基于原图进行编辑将人物转换为3D科幻风格。
保持:人物姿态和面部特征。
修改服装改为未来感战斗服增加全息UI界面。
风格:类似钢铁侠贾维斯系统。
细节:添加蓝色全息光效和数据面板。
```
**背景替换**
```
基于原图进行编辑,替换背景为深色科技空间。
保持:原图主体比例和清晰度。
修改:背景完全替换,添加中文标题与数据标签。
风格:深色科技风格。
细节:背景添加星空和网格线条。
```
---
## 三、图生文提示词
### 3.1 分析模式
| 模式 | 用途 | 提示词 |
|-----|------|-------|
| describe | 通用描述 | 详细描述图片内容 |
| ocr | 文字识别 | 识别图片中的所有文字 |
| chart | 图表分析 | 分析图表数据和趋势 |
| fashion | 穿搭分析 | 分析人物服装搭配 |
| product | 产品分析 | 分析产品特征 |
| scene | 场景分析 | 描述场景环境 |
### 3.2 自定义提示词示例
**详细描述**
```
请详细描述这张图片的内容,包括:
1. 人物特征和表情
2. 服装样式和颜色
3. 画面布局和构图
4. 艺术风格或摄影风格
5. 任何文字标注或说明
6. 背景环境和其他细节
```
**OCR识别**
```
请仔细识别这张图片中的所有文字内容,包括:
1. 标题和副标题
2. 正文内容
3. 图表标签
4. 按钮文字
5. 其他任何可见的文字
请按照文字在图片中的位置顺序,以清晰的格式输出识别结果。
```
**图表分析**
```
请分析这张图表的内容,包括:
1. 图表类型(柱状图、折线图、饼图等)
2. 主要数据趋势
3. 关键数据点
4. 图表标题和标签
5. 数据的结论或洞察
请用中文详细描述图表传达的信息。
```
**穿搭分析**
```
请分析这张图片中人物的穿搭,包括:
1. 上装:款式、颜色、材质
2. 下装:款式、颜色、材质
3. 鞋履:类型、颜色
4. 配饰:包包、帽子、眼镜、饰品等
5. 整体风格:休闲/商务/运动/时尚等
6. 搭配建议和点评
```
---
## 四、最佳实践
### 4.1 提示词优化技巧
1. **具体明确**:避免模糊描述,使用具体词汇
2. **结构清晰**:使用分点或模板结构
3. **重点突出**:将最重要的要求放在前面
4. **适度详细**:提供足够细节但不要过于冗长
### 4.2 常见问题
| 问题 | 原因 | 解决方案 |
|-----|------|---------|
| 生成结果与描述不符 | 提示词不够具体 | 添加更多细节描述 |
| 中文显示异常 | 未强调中文要求 | 明确指定"中文标注" |
| 风格不统一 | 风格描述模糊 | 使用具体的风格参考 |
| 元素缺失 | 未明确列出元素 | 逐一列出所需元素 |
### 4.3 提示词长度建议
- 文生图100-300 字
- 图生图50-200 字
- 图生文50-150 字