北京展览爬取 - 任务清单
📋 任务说明
- 执行时间:每天 9:00 自动执行
-
Cron 位置:
0 9 * * * -
脚本路径:
/root/.openclaw/workspace/travel/beijing-exhibitions/scripts/daily_cron.sh
✅ 初始化完成(2026-03-05)
已完成任务
- 创建工作目录和脚本框架
-
创建爬虫脚本
crawler.py -
创建飞书同步脚本
feishu_sync.py -
创建 heartbeat 检查脚本
heartbeat_check.py - 安装 Python 依赖(requests, beautifulsoup4, lxml)
- 测试爬虫脚本运行
- 创建首期飞书文档
- 设置 cron 定时任务(每天 9:00)
- 配置 heartbeat 检查机制
首期成果
- 飞书文档:https://feishu.cn/docx/TOnAdwh2DoteNSxMigPcGnh8njh
- 数据源:豆瓣同城(已验证可用)
- 展览数量:10 个
- 重点推荐:5 个
🔄 每日自动任务
执行流程
- 爬取各大展览信息源(豆瓣同城、博物馆官网等)
- 筛选用户感兴趣的展览(历史/人文/艺术类优先)
- 生成 Markdown 报告
- 更新飞书云文档
- 记录执行日志
- Heartbeat 检查确认执行成功
信息源优先级
- ⭐⭐⭐ 豆瓣同城 - 展览分类(已验证可用)
- ⭐⭐⭐ 国家博物馆官网
- ⭐⭐⭐ 故宫博物院官网
- ⭐⭐ 大麦网/猫眼(票务平台)
- ⭐⭐ 小红书展览笔记
📊 质量检查清单
每日检查
- 爬虫脚本执行成功
- 新增展览数量 > 0
- 飞书文档更新成功
- 日志记录完整
每周检查
- 信息源有效性验证
- 推荐准确率评估
- 用户反馈收集
📝 待优化事项
短期优化
- 增加更多可靠信息源
- 完善展览详情解析(时间、票价、预约方式)
- 添加展览图片抓取
- 优化推荐算法
长期优化
- 添加展览评价和评分
- 集成预约提醒功能
- 生成个性化推荐(基于历史浏览)
- 添加即将截止展览提醒
🔧 故障处理
常见问题
- 爬虫失败:检查网络连接,调整请求频率
- 飞书同步失败:检查 API 权限,手动同步
- 数据质量差:调整筛选规则,增加信息源
应急方案
- 手动执行:
python3 /root/.openclaw/workspace/travel/beijing-exhibitions/scripts/crawler.py - 查看日志:
tail -f /root/.openclaw/workspace/travel/beijing-exhibitions/logs/daily_*.log - Heartbeat 检查:
python3 /root/.openclaw/workspace/travel/beijing-exhibitions/scripts/heartbeat_check.py
创建时间:2026-03-05 10:20 维护者:Travel Agent