北京展览信息爬取系统
📚 项目说明
自动爬取北京各大展览信息源,筛选用户感兴趣的展览,每日 9:00 自动推送到飞书云文档。
📂 目录结构
beijing-exhibitions/
├── scripts/
│ ├── crawler.py # 主爬虫脚本
│ ├── feishu_sync.py # 飞书同步脚本
│ ├── heartbeat_check.py # Heartbeat 检查脚本
│ ├── daily_cron.sh # 每日定时任务脚本
│ ├── daily_task.sh # 任务执行脚本
│ └── requirements.txt # Python 依赖
├── data/
│ ├── exhibitions.db # SQLite 数据库
│ └── beijing_exhibitions_*.md # 每日报告
├── logs/
│ ├── daily_*.log # 每日执行日志
│ ├── exhibition_*.log # 爬虫日志
│ └── cron.log # Cron 执行日志
└── task.md # 任务清单
🚀 快速开始
手动执行爬虫
cd /root/.openclaw/workspace/travel/beijing-exhibitions/scripts
python3 crawler.py
查看执行日志
tail -f /root/.openclaw/workspace/travel/beijing-exhibitions/logs/daily_*.log
Heartbeat 检查
python3 /root/.openclaw/workspace/travel/beijing-exhibitions/scripts/heartbeat_check.py
⏰ 定时任务
Cron 配置:0 9 * * *(每天 9:00 执行)
查看 Cron 任务:
crontab -l | grep 北京展览
手动触发:
/root/.openclaw/workspace/travel/beijing-exhibitions/scripts/daily_cron.sh
📊 数据源
已验证可用
- ✅ 豆瓣同城 - 北京展览分类
- ✅ 中国美术馆官网
待优化
- ⏳ 国家博物馆官网(404)
- ⏳ 故宫博物院官网(404)
- ⏳ 首都博物馆(网络不可达)
- ⏳ 大麦网(超时)
计划增加
- 小红书展览笔记
- 微信公众号文章
- 艺术中国/雅昌艺术网
🎯 筛选规则
优先推荐(加分项)
- 历史/人文/艺术类展览
- 博物馆常设展/特展
- 古代文明/考古/书画/陶瓷/青铜器
- 世界遗产/非遗相关
- 免费或低价展览(≤200 元)
- 东城区/西城区/海淀区/朝阳区
过滤排除(减分项)
- 网红展/沉浸式体验
- 商业化严重的打卡展
- 纯娱乐性质展览
- 票价过高(>200 元)
📄 输出格式
飞书文档结构
- 今日概览(新增数量、更新时间)
- 重点推荐(TOP 5,带推荐理由)
- 完整清单(表格形式)
- 观展提示(预约、时间、交通、亲子)
- 明日预告
推荐度评级
- ⭐⭐⭐⭐⭐ 强烈推荐(国际大展/国家级博物馆)
- ⭐⭐⭐⭐ 推荐(优质展览/交通便利)
- ⭐⭐⭐ 一般(普通展览)
- ⭐⭐ 可选(时间充裕可考虑)
🔧 技术栈
- 语言:Python 3
- 爬虫:requests + BeautifulSoup4
- 数据库:SQLite3
- 定时任务:Cron + flock
- 文档同步:Feishu API
📝 更新日志
| 时间 | 版本 | 内容 |
|---|---|---|
| 2026-03-05 10:20 | v1.0 | 初始化完成,首期报告发布 |
由 Travel Agent 维护 最后更新:2026-03-05 10:20