北京展览信息爬取系统

📚 项目说明

自动爬取北京各大展览信息源,筛选用户感兴趣的展览,每日 9:00 自动推送到飞书云文档。


📂 目录结构

beijing-exhibitions/
├── scripts/
│   ├── crawler.py          # 主爬虫脚本
│   ├── feishu_sync.py      # 飞书同步脚本
│   ├── heartbeat_check.py  # Heartbeat 检查脚本
│   ├── daily_cron.sh       # 每日定时任务脚本
│   ├── daily_task.sh       # 任务执行脚本
│   └── requirements.txt    # Python 依赖
├── data/
│   ├── exhibitions.db      # SQLite 数据库
│   └── beijing_exhibitions_*.md  # 每日报告
├── logs/
│   ├── daily_*.log         # 每日执行日志
│   ├── exhibition_*.log    # 爬虫日志
│   └── cron.log            # Cron 执行日志
└── task.md                 # 任务清单

🚀 快速开始

手动执行爬虫

cd /root/.openclaw/workspace/travel/beijing-exhibitions/scripts
python3 crawler.py

查看执行日志

tail -f /root/.openclaw/workspace/travel/beijing-exhibitions/logs/daily_*.log

Heartbeat 检查

python3 /root/.openclaw/workspace/travel/beijing-exhibitions/scripts/heartbeat_check.py

⏰ 定时任务

Cron 配置0 9 * * *(每天 9:00 执行)

查看 Cron 任务

crontab -l | grep 北京展览

手动触发

/root/.openclaw/workspace/travel/beijing-exhibitions/scripts/daily_cron.sh

📊 数据源

已验证可用

  • ✅ 豆瓣同城 - 北京展览分类
  • ✅ 中国美术馆官网

待优化

  • ⏳ 国家博物馆官网(404)
  • ⏳ 故宫博物院官网(404)
  • ⏳ 首都博物馆(网络不可达)
  • ⏳ 大麦网(超时)

计划增加

  • 小红书展览笔记
  • 微信公众号文章
  • 艺术中国/雅昌艺术网

🎯 筛选规则

优先推荐(加分项)

  • 历史/人文/艺术类展览
  • 博物馆常设展/特展
  • 古代文明/考古/书画/陶瓷/青铜器
  • 世界遗产/非遗相关
  • 免费或低价展览(≤200 元)
  • 东城区/西城区/海淀区/朝阳区

过滤排除(减分项)

  • 网红展/沉浸式体验
  • 商业化严重的打卡展
  • 纯娱乐性质展览
  • 票价过高(>200 元)

📄 输出格式

飞书文档结构

  1. 今日概览(新增数量、更新时间)
  2. 重点推荐(TOP 5,带推荐理由)
  3. 完整清单(表格形式)
  4. 观展提示(预约、时间、交通、亲子)
  5. 明日预告

推荐度评级

  • ⭐⭐⭐⭐⭐ 强烈推荐(国际大展/国家级博物馆)
  • ⭐⭐⭐⭐ 推荐(优质展览/交通便利)
  • ⭐⭐⭐ 一般(普通展览)
  • ⭐⭐ 可选(时间充裕可考虑)

🔧 技术栈

  • 语言:Python 3
  • 爬虫:requests + BeautifulSoup4
  • 数据库:SQLite3
  • 定时任务:Cron + flock
  • 文档同步:Feishu API

📝 更新日志

时间 版本 内容
2026-03-05 10:20 v1.0 初始化完成,首期报告发布

由 Travel Agent 维护 最后更新:2026-03-05 10:20