Initial commit to git.yoin

2026-02-11 22:02:47 +08:00
commit cf10ab6473
153 changed files with 14581 additions and 0 deletions
--- a/csv-data-summarizer/SKILL.md
+++ b/csv-data-summarizer/SKILL.md
@@ -0,0 +1,148 @@
+---
+name: csv-data-summarizer
+description: CSV数据分析技能。使用Python和pandas分析CSV文件，生成统计摘要和快速可视化图表。当用户上传或提到CSV文件、需要分析表格数据时自动使用。
+metadata:
+  version: "2.1.0"
+  dependencies: python>=3.8, pandas>=2.0.0, matplotlib>=3.7.0, seaborn>=0.12.0
+---
+
+# CSV 数据分析器
+
+此技能分析 CSV 文件并提供包含统计洞察和可视化的全面摘要。
+
+## 何时使用此技能
+
+当用户：
+- 上传或提到 CSV 文件
+- 要求汇总、分析或可视化表格数据
+- 请求从 CSV 数据中获取洞察
+- 想了解数据结构和质量
+
+## 工作原理
+
+## ⚠️ 关键行为要求 ⚠️
+
+**不要问用户想用数据做什么。**
+**不要提供选项或选择。**
+**不要说"您想让我帮您做什么？"**
+**不要列出可能的分析选项。**
+
+**立即自动执行：**
+1. 运行全面分析
+2. 生成所有相关可视化
+3. 展示完整结果
+4. 不提问、不给选项、不等待用户输入
+
+**用户想要立即获得完整分析 - 直接做就行。**
+
+### 自动分析步骤：
+
+**该技能通过先检查数据，然后确定最相关的分析，智能适应不同的数据类型和行业。**
+
+1. **加载并检查** CSV 文件到 pandas DataFrame
+2. **识别数据结构** - 列类型、日期列、数值列、类别
+3. **根据数据内容确定相关分析**：
+   - **销售/电商数据**（订单日期、收入、产品）：时间序列趋势、收入分析、产品表现
+   - **客户数据**（人口统计、细分、区域）：分布分析、细分、地理模式
+   - **财务数据**（交易、金额、日期）：趋势分析、统计摘要、相关性
+   - **运营数据**（时间戳、指标、状态）：时间序列、绩效指标、分布
+   - **调查数据**（分类响应、评分）：频率分析、交叉表、分布
+   - **通用表格数据**：根据找到的列类型调整
+
+4. **只创建对特定数据集有意义的可视化**：
+   - 时间序列图仅在存在日期/时间戳列时
+   - 相关性热图仅在存在多个数值列时
+   - 类别分布仅在存在分类列时
+   - 数值分布的直方图（相关时）
+   
+5. **自动生成全面输出**包括：
+   - 数据概览（行数、列数、类型）
+   - 与数据类型相关的关键统计和指标
+   - 缺失数据分析
+   - 多个相关可视化（仅适用的那些）
+   - 基于此特定数据集中发现的模式的可操作洞察
+   
+6. **一次性展示所有内容** - 不追问
+
+**适应示例：**
+- 带患者ID的医疗数据 → 专注于人口统计、治疗模式、时间趋势
+- 带库存水平的库存数据 → 专注于数量分布、补货模式、SKU分析
+- 带时间戳的网站分析 → 专注于流量模式、转化指标、时段分析
+- 调查响应 → 专注于响应分布、人口统计细分、情感模式
+
+### 行为指南
+
+✅ **正确方法 - 这样说：**
+- "我现在对这些数据进行全面分析。"
+- "这是带可视化的完整分析："
+- "我识别出这是[类型]数据并生成了相关洞察："
+- 然后立即展示完整分析
+
+✅ **要做：**
+- 立即运行分析脚本
+- 自动生成所有相关图表
+- 无需询问即提供完整洞察
+- 在第一次响应中就做到全面完整
+- 果断行动，不需征求许可
+
+❌ **永远不要说这些话：**
+- "您想用这些数据做什么？"
+- "您想让我帮您做什么？"
+- "这里有一些常见选项："
+- "让我知道您想要什么帮助"
+- "如果您愿意，我可以创建全面分析！"
+- 任何以"？"结尾询问用户方向的句子
+- 任何选项或选择列表
+- 任何条件性的"如果您想，我可以做X"
+
+❌ **禁止行为：**
+- 询问用户想要什么
+- 列出选项供用户选择
+- 在分析前等待用户指示
+- 提供需要后续跟进的部分分析
+- 描述你可以做什么而不是直接做
+
+### 使用方法
+
+该技能提供 Python 函数 `summarize_csv(file_path)`：
+- 接受 CSV 文件的路径
+- 返回带统计信息的全面文本摘要
+- 根据数据结构自动生成多个可视化
+
+### 示例提示
+
+> "这是 `sales_data.csv`。你能汇总这个文件吗？"
+
+> "分析这个客户数据 CSV 并展示趋势。"
+
+> "你能从 `orders.csv` 中发现什么洞察？"
+
+### 示例输出
+
+**数据集概览**
+- 5,000 行 × 8 列
+- 3 个数值列，1 个日期列
+
+**统计摘要**
+- 平均订单价值：$58.2
+- 标准差：$12.4
+- 缺失值：2%（100个单元格）
+
+**洞察**
+- 销售随时间呈上升趋势
+- Q4活动达到峰值
+*（附：趋势图）*
+
+## 文件
+
+- `analyze.py` - 核心分析逻辑
+- `requirements.txt` - Python 依赖
+- `resources/sample.csv` - 用于测试的示例数据集
+- `resources/README.md` - 附加文档
+
+## 注意事项
+
+- 自动检测日期列（名称中包含 'date' 的列）
+- 优雅处理缺失数据
+- 仅在存在日期列时生成可视化
+- 所有数值列都包含在统计摘要中