北京展览爬取系统 - 2026-03-05

🎯 任务背景

  • 任务类型:P2 任务(持续执行直到完成)
  • 执行时间:2026-03-05 10:00-14:00
  • 目标:爬取北京各大博物馆展览信息,每日 9 点自动更新飞书文档

✅ 完成的数据源(10/10)

官方权威数据源(7 个)

| 数据源 | 数量 | 技术方案 | 状态 | |——–|——|———-|——| | 故宫博物院官网 | 3 个 | Playwright 浏览器自动化 | ✅ 成功 | | 中国美术馆官网 | 5 个 | web_fetch + Jina Reader | ✅ 成功 | | 国家博物馆官网 | 3 个 | 北京市文物局官网汇总 | ✅ 成功 | | 首都博物馆官网 | 1 个 | Playwright + HTTPS | ✅ 成功 | | 中国地质博物馆 | 1 个 | 北京市文物局官网 | ✅ 成功 | | 中国园林博物馆 | 1 个 | 北京市文物局官网 | ✅ 成功 | | 中国非物质文化遗产馆 | 1 个 | 北京市文物局官网 | ✅ 成功 |

民间数据源(3 个)

| 数据源 | 数量 | 技术方案 | 状态 | |——–|——|———-|——| | 豆瓣同城 | 10 个 | web_fetch + Jina Reader | ✅ 成功 | | 小红书 | 13 篇 | Playwright + Cookies | ✅ 成功 | | 北京市文物局 | 8 个 | 官方汇总 | ✅ 成功 |

总计:39 个展览/攻略,其中国家级博物馆 15 个,免费展览 12 个


🔧 技术方案总结

最佳工具组合

  1. Playwright - 动态网站首选(故宫、小红书)
  2. web_fetch + Jina Reader - 静态网站首选(豆瓣、中国美术馆)
  3. 官方汇总数据源 - 最佳方案(北京市文物局)

核心经验

  • 不是一门手艺走天下:根据网站类型选择工具
  • 找替代数据源:北京市文物局汇总了各大博物馆展览信息
  • Cookies 配置:小红书需要配置 cookies.json 到 Docker 容器
  • 用户偏好过滤:自动过滤不符合兴趣的展览类型

📁 创建的文件

配置文件

  • /root/.openclaw/workspace/travel/beijing-exhibitions/config/user_preferences.json - 用户兴趣偏好
  • /root/.openclaw/workspace/travel/beijing-exhibitions/config/FILTER_CONFIG.md - 过滤配置说明

爬虫脚本

  • exhibition_filter.py - 展览过滤器(自动应用用户偏好)
  • crawler.py - 主爬虫(已集成过滤器)
  • detailed_crawler.py - 详细爬取脚本
  • playwright_*.py - Playwright 系列脚本
  • xiaohongshu_*.py - 小红书爬取系列脚本

飞书文档

  • 文档链接:https://feishu.cn/docx/TOnAdwh2DoteNSxMigPcGnh8njh
  • doc_tokenTOnAdwh2DoteNSxMigPcGnh8njh

👤 用户偏好配置(涛哥)

✅ 保留的展览类型(14 个)

历史、人文、古建筑、博物馆、寺庙古刹、世界遗产、考古、书法、传统文化、古代艺术、藏传佛教、古蜀文明、工艺美术、学术研究

❌ 过滤的展览类型(10 个)

建筑艺术、民俗文化、国际艺术、生肖文化、非遗民俗、亲子教育、综合合集、当代艺术、地质科普、装置艺术

自动过滤系统

  • 配置文件user_preferences.json
  • 过滤器exhibition_filter.py
  • 集成位置crawler.py(每日 9 点自动执行)
  • 效果:重点推荐只显示符合兴趣的展览,完整清单保留所有

📊 重点推荐展览(符合用户兴趣)

展览名称 地点 展期 票价 类型
叩问永恒——庞贝的探索与发掘 🔥 国家博物馆 02-04~10-11 ¥120/60 考古/古罗马
双星耀世——三星堆—金沙古蜀文明展 🔥 国家博物馆 即日起~08-18 免费 古蜀文明
万法归一:萨迦寺历史文化艺术展 故宫博物院 02-10~05-10 含门票 藏传佛教
饰文焕彩——河北古代艺术珍品展 中国美术馆 02-13~05-12 免费 古代艺术
跃马春风——楹联书法作品展 ⚠️ 中国美术馆 02-11~03-08 免费 书法
仁风景从——故宫藏捐献文物展 故宫博物院 2025-10-16 起 含门票 古代艺术

🎯 核心经验教训

技术选择

  1. Playwright 是动态网站首选 - 成功爬取故宫、小红书
  2. Jina Reader 是静态网站神器 - 绕过反爬,返回 Markdown
  3. 官方汇总数据源最优 - 北京市文物局提供 8 个博物馆展览信息
  4. Cookies 配置要正确 - 小红书需要 cookies.json 到容器/app 目录

工作策略

  1. 不要硬刚反爬 - 找替代数据源(如北京市文物局)
  2. 先判断网站类型 - 静态/动态决定工具选择
  3. 批量处理 + 休息间隔 - 避免触发风控
  4. 记录所有尝试 - 成功/失败都记录,便于复盘

用户偏好

  1. 默认 3-4 人出行 - 不是 2 人
  2. 住宿只选全季 - 舒适型,不选汉庭
  3. 公共交通为主 - 不自驾,家人晕车
  4. 历史人文优先 - 古建筑、博物馆、考古展
  5. 过滤商业化 - 不喜欢仿古建筑、网红展

📝 后续优化

短期(本周)

  • 测试明日 9 点自动执行
  • 监控过滤效果
  • 收集用户反馈

长期(本月)

  • 添加更多博物馆官网
  • 优化展览去重算法
  • 添加展览图片抓取
  • 集成预约提醒功能

创建时间:2026-03-05 14:00 维护者:Travel Agent