--- name: csv-data-summarizer description: CSV数据分析技能。使用Python和pandas分析CSV文件,生成统计摘要和快速可视化图表。当用户上传或提到CSV文件、需要分析表格数据时自动使用。 metadata: version: "2.1.0" dependencies: python>=3.8, pandas>=2.0.0, matplotlib>=3.7.0, seaborn>=0.12.0 --- # CSV 数据分析器 此技能分析 CSV 文件并提供包含统计洞察和可视化的全面摘要。 ## 何时使用此技能 当用户: - 上传或提到 CSV 文件 - 要求汇总、分析或可视化表格数据 - 请求从 CSV 数据中获取洞察 - 想了解数据结构和质量 ## 工作原理 ## ⚠️ 关键行为要求 ⚠️ **不要问用户想用数据做什么。** **不要提供选项或选择。** **不要说"您想让我帮您做什么?"** **不要列出可能的分析选项。** **立即自动执行:** 1. 运行全面分析 2. 生成所有相关可视化 3. 展示完整结果 4. 不提问、不给选项、不等待用户输入 **用户想要立即获得完整分析 - 直接做就行。** ### 自动分析步骤: **该技能通过先检查数据,然后确定最相关的分析,智能适应不同的数据类型和行业。** 1. **加载并检查** CSV 文件到 pandas DataFrame 2. **识别数据结构** - 列类型、日期列、数值列、类别 3. **根据数据内容确定相关分析**: - **销售/电商数据**(订单日期、收入、产品):时间序列趋势、收入分析、产品表现 - **客户数据**(人口统计、细分、区域):分布分析、细分、地理模式 - **财务数据**(交易、金额、日期):趋势分析、统计摘要、相关性 - **运营数据**(时间戳、指标、状态):时间序列、绩效指标、分布 - **调查数据**(分类响应、评分):频率分析、交叉表、分布 - **通用表格数据**:根据找到的列类型调整 4. **只创建对特定数据集有意义的可视化**: - 时间序列图仅在存在日期/时间戳列时 - 相关性热图仅在存在多个数值列时 - 类别分布仅在存在分类列时 - 数值分布的直方图(相关时) 5. **自动生成全面输出**包括: - 数据概览(行数、列数、类型) - 与数据类型相关的关键统计和指标 - 缺失数据分析 - 多个相关可视化(仅适用的那些) - 基于此特定数据集中发现的模式的可操作洞察 6. **一次性展示所有内容** - 不追问 **适应示例:** - 带患者ID的医疗数据 → 专注于人口统计、治疗模式、时间趋势 - 带库存水平的库存数据 → 专注于数量分布、补货模式、SKU分析 - 带时间戳的网站分析 → 专注于流量模式、转化指标、时段分析 - 调查响应 → 专注于响应分布、人口统计细分、情感模式 ### 行为指南 ✅ **正确方法 - 这样说:** - "我现在对这些数据进行全面分析。" - "这是带可视化的完整分析:" - "我识别出这是[类型]数据并生成了相关洞察:" - 然后立即展示完整分析 ✅ **要做:** - 立即运行分析脚本 - 自动生成所有相关图表 - 无需询问即提供完整洞察 - 在第一次响应中就做到全面完整 - 果断行动,不需征求许可 ❌ **永远不要说这些话:** - "您想用这些数据做什么?" - "您想让我帮您做什么?" - "这里有一些常见选项:" - "让我知道您想要什么帮助" - "如果您愿意,我可以创建全面分析!" - 任何以"?"结尾询问用户方向的句子 - 任何选项或选择列表 - 任何条件性的"如果您想,我可以做X" ❌ **禁止行为:** - 询问用户想要什么 - 列出选项供用户选择 - 在分析前等待用户指示 - 提供需要后续跟进的部分分析 - 描述你可以做什么而不是直接做 ### 使用方法 该技能提供 Python 函数 `summarize_csv(file_path)`: - 接受 CSV 文件的路径 - 返回带统计信息的全面文本摘要 - 根据数据结构自动生成多个可视化 ### 示例提示 > "这是 `sales_data.csv`。你能汇总这个文件吗?" > "分析这个客户数据 CSV 并展示趋势。" > "你能从 `orders.csv` 中发现什么洞察?" ### 示例输出 **数据集概览** - 5,000 行 × 8 列 - 3 个数值列,1 个日期列 **统计摘要** - 平均订单价值:$58.2 - 标准差:$12.4 - 缺失值:2%(100个单元格) **洞察** - 销售随时间呈上升趋势 - Q4活动达到峰值 *(附:趋势图)* ## 文件 - `analyze.py` - 核心分析逻辑 - `requirements.txt` - Python 依赖 - `resources/sample.csv` - 用于测试的示例数据集 - `resources/README.md` - 附加文档 ## 注意事项 - 自动检测日期列(名称中包含 'date' 的列) - 优雅处理缺失数据 - 仅在存在日期列时生成可视化 - 所有数值列都包含在统计摘要中