小红书爆款笔记抓取

# 小红书笔记处理工具

一个功能强大的小红书笔记数据采集和分析工具，支持自动搜索、内容抓取、数据分析等功能。

## 主要功能

1. **数据采集与处理**
   - 读取Excel中的笔记URL
   - 自动抓取笔记详情内容
   - 提取笔记话题标签
   - 生成结构化数据文件

2. **数据分析**
   - 标题关键词分析
   - 话题标签统计（TOP 50）
   - 互动数据分析

3. **资源下载**
   - 自动下载符合条件的笔记封面图片
   - 支持批量处理
   - 自动文件命名和分类

## 使用前准备

### 1. 环境要求
- Python 3.x
- Windows/Mac/Linux

### 2. 安装依赖
```bash
# 使用pip安装所需库
pip install pandas requests beautifulsoup4 jieba openpyxl
```

### 3. 输入文件要求
Excel文件（xiaohongshu_notes.xlsx）需包含以下列：
- 笔记URL（第一列）
- 笔记标题
- 粉丝数
- 互动量
- 封面地址

## 快速开始

1. **下载代码**
   - 下载 `xiaohongshu_processor.py` 文件

2. **准备数据**
   - 将Excel文件放在D盘根目录
   - 文件名：xiaohongshu_notes.xlsx

3. **运行程序**
```bash
python xiaohongshu_processor.py
```

## 输出文件说明

程序会生成以下文件：
1. `原文件名_processed_时间戳.xlsx`：处理后的笔记数据
2. `原文件名_analysis_时间戳.xlsx`：标题分析结果
3. `top_50_hashtags_时间戳.txt`：话题标签统计
4. `downloaded_images/`：下载的图片文件夹

## 数据筛选条件

- 图片下载条件：
  - 粉丝数 < 1000
  - 互动量 > 100

## 注意事项

1. **运行环境**
   - 确保Python环境正确配置
   - 确保所需库都已安装

2. **数据安全**
   - 定期备份重要数据
   - 注意网络连接状态

3. **使用限制**
   - 合理控制请求频率
   - 遵守小红书平台规则

## 常见问题

1. **安装问题**
   ```bash
   # 如果pip安装失败，尝试：
   python -m pip install 包名
   ```

2. **运行错误**
   - 检查文件路径是否正确
   - 确认Excel文件格式

## 更新日志

- 2024.03.21：首次发布
  - 实现基础功能
  - 添加数据分析功能
  - 优化文件处理逻辑

## 联系方式

如有问题或建议，请通过以下方式联系：
- Email: zidayo@outlook.com
- GitHub: https://github.com/kitaharam

## 许可证

MIT License

Copyright (c) 2024 [Your Name]