北京展览爬取 - 任务清单

📋 任务说明

  • 执行时间:每天 9:00 自动执行
  • Cron 位置0 9 * * *
  • 脚本路径/root/.openclaw/workspace/travel/beijing-exhibitions/scripts/daily_cron.sh

✅ 初始化完成(2026-03-05)

已完成任务

  • 创建工作目录和脚本框架
  • 创建爬虫脚本 crawler.py
  • 创建飞书同步脚本 feishu_sync.py
  • 创建 heartbeat 检查脚本 heartbeat_check.py
  • 安装 Python 依赖(requests, beautifulsoup4, lxml)
  • 测试爬虫脚本运行
  • 创建首期飞书文档
  • 设置 cron 定时任务(每天 9:00)
  • 配置 heartbeat 检查机制

首期成果

  • 飞书文档:https://feishu.cn/docx/TOnAdwh2DoteNSxMigPcGnh8njh
  • 数据源:豆瓣同城(已验证可用)
  • 展览数量:10 个
  • 重点推荐:5 个

🔄 每日自动任务

执行流程

  1. 爬取各大展览信息源(豆瓣同城、博物馆官网等)
  2. 筛选用户感兴趣的展览(历史/人文/艺术类优先)
  3. 生成 Markdown 报告
  4. 更新飞书云文档
  5. 记录执行日志
  6. Heartbeat 检查确认执行成功

信息源优先级

  1. ⭐⭐⭐ 豆瓣同城 - 展览分类(已验证可用)
  2. ⭐⭐⭐ 国家博物馆官网
  3. ⭐⭐⭐ 故宫博物院官网
  4. ⭐⭐ 大麦网/猫眼(票务平台)
  5. ⭐⭐ 小红书展览笔记

📊 质量检查清单

每日检查

  • 爬虫脚本执行成功
  • 新增展览数量 > 0
  • 飞书文档更新成功
  • 日志记录完整

每周检查

  • 信息源有效性验证
  • 推荐准确率评估
  • 用户反馈收集

📝 待优化事项

短期优化

  • 增加更多可靠信息源
  • 完善展览详情解析(时间、票价、预约方式)
  • 添加展览图片抓取
  • 优化推荐算法

长期优化

  • 添加展览评价和评分
  • 集成预约提醒功能
  • 生成个性化推荐(基于历史浏览)
  • 添加即将截止展览提醒

🔧 故障处理

常见问题

  1. 爬虫失败:检查网络连接,调整请求频率
  2. 飞书同步失败:检查 API 权限,手动同步
  3. 数据质量差:调整筛选规则,增加信息源

应急方案

  • 手动执行:python3 /root/.openclaw/workspace/travel/beijing-exhibitions/scripts/crawler.py
  • 查看日志:tail -f /root/.openclaw/workspace/travel/beijing-exhibitions/logs/daily_*.log
  • Heartbeat 检查:python3 /root/.openclaw/workspace/travel/beijing-exhibitions/scripts/heartbeat_check.py

创建时间:2026-03-05 10:20 维护者:Travel Agent