北京展览爬取系统 - 2026-03-05
🎯 任务背景
- 任务类型:P2 任务(持续执行直到完成)
- 执行时间:2026-03-05 10:00-14:00
- 目标:爬取北京各大博物馆展览信息,每日 9 点自动更新飞书文档
✅ 完成的数据源(10/10)
官方权威数据源(7 个)
| 数据源 | 数量 | 技术方案 | 状态 | |——–|——|———-|——| | 故宫博物院官网 | 3 个 | Playwright 浏览器自动化 | ✅ 成功 | | 中国美术馆官网 | 5 个 | web_fetch + Jina Reader | ✅ 成功 | | 国家博物馆官网 | 3 个 | 北京市文物局官网汇总 | ✅ 成功 | | 首都博物馆官网 | 1 个 | Playwright + HTTPS | ✅ 成功 | | 中国地质博物馆 | 1 个 | 北京市文物局官网 | ✅ 成功 | | 中国园林博物馆 | 1 个 | 北京市文物局官网 | ✅ 成功 | | 中国非物质文化遗产馆 | 1 个 | 北京市文物局官网 | ✅ 成功 |
民间数据源(3 个)
| 数据源 | 数量 | 技术方案 | 状态 | |——–|——|———-|——| | 豆瓣同城 | 10 个 | web_fetch + Jina Reader | ✅ 成功 | | 小红书 | 13 篇 | Playwright + Cookies | ✅ 成功 | | 北京市文物局 | 8 个 | 官方汇总 | ✅ 成功 |
总计:39 个展览/攻略,其中国家级博物馆 15 个,免费展览 12 个
🔧 技术方案总结
最佳工具组合
- Playwright - 动态网站首选(故宫、小红书)
- web_fetch + Jina Reader - 静态网站首选(豆瓣、中国美术馆)
- 官方汇总数据源 - 最佳方案(北京市文物局)
核心经验
- 不是一门手艺走天下:根据网站类型选择工具
- 找替代数据源:北京市文物局汇总了各大博物馆展览信息
- Cookies 配置:小红书需要配置 cookies.json 到 Docker 容器
- 用户偏好过滤:自动过滤不符合兴趣的展览类型
📁 创建的文件
配置文件
-
/root/.openclaw/workspace/travel/beijing-exhibitions/config/user_preferences.json- 用户兴趣偏好 -
/root/.openclaw/workspace/travel/beijing-exhibitions/config/FILTER_CONFIG.md- 过滤配置说明
爬虫脚本
-
exhibition_filter.py- 展览过滤器(自动应用用户偏好) -
crawler.py- 主爬虫(已集成过滤器) -
detailed_crawler.py- 详细爬取脚本 -
playwright_*.py- Playwright 系列脚本 -
xiaohongshu_*.py- 小红书爬取系列脚本
飞书文档
- 文档链接:https://feishu.cn/docx/TOnAdwh2DoteNSxMigPcGnh8njh
-
doc_token:
TOnAdwh2DoteNSxMigPcGnh8njh
👤 用户偏好配置(涛哥)
✅ 保留的展览类型(14 个)
历史、人文、古建筑、博物馆、寺庙古刹、世界遗产、考古、书法、传统文化、古代艺术、藏传佛教、古蜀文明、工艺美术、学术研究
❌ 过滤的展览类型(10 个)
建筑艺术、民俗文化、国际艺术、生肖文化、非遗民俗、亲子教育、综合合集、当代艺术、地质科普、装置艺术
自动过滤系统
-
配置文件:
user_preferences.json -
过滤器:
exhibition_filter.py -
集成位置:
crawler.py(每日 9 点自动执行) - 效果:重点推荐只显示符合兴趣的展览,完整清单保留所有
📊 重点推荐展览(符合用户兴趣)
| 展览名称 | 地点 | 展期 | 票价 | 类型 |
|---|---|---|---|---|
| 叩问永恒——庞贝的探索与发掘 🔥 | 国家博物馆 | 02-04~10-11 | ¥120/60 | 考古/古罗马 |
| 双星耀世——三星堆—金沙古蜀文明展 🔥 | 国家博物馆 | 即日起~08-18 | 免费 | 古蜀文明 |
| 万法归一:萨迦寺历史文化艺术展 | 故宫博物院 | 02-10~05-10 | 含门票 | 藏传佛教 |
| 饰文焕彩——河北古代艺术珍品展 | 中国美术馆 | 02-13~05-12 | 免费 | 古代艺术 |
| 跃马春风——楹联书法作品展 ⚠️ | 中国美术馆 | 02-11~03-08 | 免费 | 书法 |
| 仁风景从——故宫藏捐献文物展 | 故宫博物院 | 2025-10-16 起 | 含门票 | 古代艺术 |
🎯 核心经验教训
技术选择
- Playwright 是动态网站首选 - 成功爬取故宫、小红书
- Jina Reader 是静态网站神器 - 绕过反爬,返回 Markdown
- 官方汇总数据源最优 - 北京市文物局提供 8 个博物馆展览信息
- Cookies 配置要正确 - 小红书需要 cookies.json 到容器/app 目录
工作策略
- 不要硬刚反爬 - 找替代数据源(如北京市文物局)
- 先判断网站类型 - 静态/动态决定工具选择
- 批量处理 + 休息间隔 - 避免触发风控
- 记录所有尝试 - 成功/失败都记录,便于复盘
用户偏好
- 默认 3-4 人出行 - 不是 2 人
- 住宿只选全季 - 舒适型,不选汉庭
- 公共交通为主 - 不自驾,家人晕车
- 历史人文优先 - 古建筑、博物馆、考古展
- 过滤商业化 - 不喜欢仿古建筑、网红展
📝 后续优化
短期(本周)
- 测试明日 9 点自动执行
- 监控过滤效果
- 收集用户反馈
长期(本月)
- 添加更多博物馆官网
- 优化展览去重算法
- 添加展览图片抓取
- 集成预约提醒功能
创建时间:2026-03-05 14:00 维护者:Travel Agent