2f0adbb5e3095acbc17ed9869948eb2c99c08f6b
MEMORY.md
| ... | ... | @@ -1,5 +1,39 @@ |
| 1 | 1 | # Travel Agent 记忆 |
| 2 | 2 | |
| 3 | +## 🎯 北京展览爬取系统(2026-03-05)⭐ 重点 |
|
| 4 | + |
|
| 5 | +### 完成任务 |
|
| 6 | +- **P2 任务**:爬取 10 个可信数据源,获取 39 个展览/攻略 |
|
| 7 | +- **自动过滤**:根据用户偏好自动过滤不符合兴趣的展览 |
|
| 8 | +- **飞书文档**:每日 9 点自动更新 https://feishu.cn/docx/TOnAdwh2DoteNSxMigPcGnh8njh |
|
| 9 | + |
|
| 10 | +### 技术方案 |
|
| 11 | +1. **Playwright** - 动态网站(故宫、小红书) |
|
| 12 | +2. **web_fetch + Jina Reader** - 静态网站(豆瓣、中国美术馆) |
|
| 13 | +3. **北京市文物局** - 最佳权威数据源(8 个博物馆汇总) |
|
| 14 | + |
|
| 15 | +### 用户偏好(涛哥) |
|
| 16 | +- **保留类型**:历史、人文、古建筑、博物馆、考古、书法、古代艺术、藏传佛教等 14 个 |
|
| 17 | +- **过滤类型**:建筑艺术、民俗文化、国际艺术、生肖文化、亲子教育、当代艺术等 10 个 |
|
| 18 | +- **配置文件**:`beijing-exhibitions/config/user_preferences.json` |
|
| 19 | + |
|
| 20 | +### 核心经验 |
|
| 21 | +- 不是一门手艺走天下,根据网站类型选择工具 |
|
| 22 | +- 找替代数据源(北京市文物局汇总最优) |
|
| 23 | +- 默认 3-4 人出行,住宿只选全季,公共交通为主 |
|
| 24 | + |
|
| 25 | +--- |
|
| 26 | + |
|
| 27 | +## 🔧 系统更新(2026-03-05) |
|
| 28 | + |
|
| 29 | +**Chromium 已安装可用:** |
|
| 30 | +- 版本:Google Chrome 145.0.7632.159 |
|
| 31 | +- 路径:`/usr/bin/google-chrome` |
|
| 32 | +- 用途:Playwright 浏览器自动化(网页读取、截图) |
|
| 33 | +- 安装源:Google 官方仓库 |
|
| 34 | + |
|
| 35 | +--- |
|
| 36 | + |
|
| 3 | 37 | ## 📅 最近完成任务(2026-03-01 至 2026-03-03) |
| 4 | 38 | |
| 5 | 39 | ### ✅ 山西全省深度调研(2026-03-02)⭐ 重点 |
memory/2026-03-05.md
| ... | ... | @@ -0,0 +1,136 @@ |
| 1 | +# 北京展览爬取系统 - 2026-03-05 |
|
| 2 | + |
|
| 3 | +## 🎯 任务背景 |
|
| 4 | +- **任务类型**:P2 任务(持续执行直到完成) |
|
| 5 | +- **执行时间**:2026-03-05 10:00-14:00 |
|
| 6 | +- **目标**:爬取北京各大博物馆展览信息,每日 9 点自动更新飞书文档 |
|
| 7 | + |
|
| 8 | +--- |
|
| 9 | + |
|
| 10 | +## ✅ 完成的数据源(10/10) |
|
| 11 | + |
|
| 12 | +### 官方权威数据源(7 个) |
|
| 13 | +| 数据源 | 数量 | 技术方案 | 状态 | |
|
| 14 | +|--------|------|----------|------| |
|
| 15 | +| 故宫博物院官网 | 3 个 | Playwright 浏览器自动化 | ✅ 成功 | |
|
| 16 | +| 中国美术馆官网 | 5 个 | web_fetch + Jina Reader | ✅ 成功 | |
|
| 17 | +| 国家博物馆官网 | 3 个 | 北京市文物局官网汇总 | ✅ 成功 | |
|
| 18 | +| 首都博物馆官网 | 1 个 | Playwright + HTTPS | ✅ 成功 | |
|
| 19 | +| 中国地质博物馆 | 1 个 | 北京市文物局官网 | ✅ 成功 | |
|
| 20 | +| 中国园林博物馆 | 1 个 | 北京市文物局官网 | ✅ 成功 | |
|
| 21 | +| 中国非物质文化遗产馆 | 1 个 | 北京市文物局官网 | ✅ 成功 | |
|
| 22 | + |
|
| 23 | +### 民间数据源(3 个) |
|
| 24 | +| 数据源 | 数量 | 技术方案 | 状态 | |
|
| 25 | +|--------|------|----------|------| |
|
| 26 | +| 豆瓣同城 | 10 个 | web_fetch + Jina Reader | ✅ 成功 | |
|
| 27 | +| 小红书 | 13 篇 | Playwright + Cookies | ✅ 成功 | |
|
| 28 | +| 北京市文物局 | 8 个 | 官方汇总 | ✅ 成功 | |
|
| 29 | + |
|
| 30 | +**总计**:39 个展览/攻略,其中国家级博物馆 15 个,免费展览 12 个 |
|
| 31 | + |
|
| 32 | +--- |
|
| 33 | + |
|
| 34 | +## 🔧 技术方案总结 |
|
| 35 | + |
|
| 36 | +### 最佳工具组合 |
|
| 37 | +1. **Playwright** - 动态网站首选(故宫、小红书) |
|
| 38 | +2. **web_fetch + Jina Reader** - 静态网站首选(豆瓣、中国美术馆) |
|
| 39 | +3. **官方汇总数据源** - 最佳方案(北京市文物局) |
|
| 40 | + |
|
| 41 | +### 核心经验 |
|
| 42 | +- **不是一门手艺走天下**:根据网站类型选择工具 |
|
| 43 | +- **找替代数据源**:北京市文物局汇总了各大博物馆展览信息 |
|
| 44 | +- **Cookies 配置**:小红书需要配置 cookies.json 到 Docker 容器 |
|
| 45 | +- **用户偏好过滤**:自动过滤不符合兴趣的展览类型 |
|
| 46 | + |
|
| 47 | +--- |
|
| 48 | + |
|
| 49 | +## 📁 创建的文件 |
|
| 50 | + |
|
| 51 | +### 配置文件 |
|
| 52 | +- `/root/.openclaw/workspace/travel/beijing-exhibitions/config/user_preferences.json` - 用户兴趣偏好 |
|
| 53 | +- `/root/.openclaw/workspace/travel/beijing-exhibitions/config/FILTER_CONFIG.md` - 过滤配置说明 |
|
| 54 | + |
|
| 55 | +### 爬虫脚本 |
|
| 56 | +- `exhibition_filter.py` - 展览过滤器(自动应用用户偏好) |
|
| 57 | +- `crawler.py` - 主爬虫(已集成过滤器) |
|
| 58 | +- `detailed_crawler.py` - 详细爬取脚本 |
|
| 59 | +- `playwright_*.py` - Playwright 系列脚本 |
|
| 60 | +- `xiaohongshu_*.py` - 小红书爬取系列脚本 |
|
| 61 | + |
|
| 62 | +### 飞书文档 |
|
| 63 | +- **文档链接**:https://feishu.cn/docx/TOnAdwh2DoteNSxMigPcGnh8njh |
|
| 64 | +- **doc_token**:`TOnAdwh2DoteNSxMigPcGnh8njh` |
|
| 65 | + |
|
| 66 | +--- |
|
| 67 | + |
|
| 68 | +## 👤 用户偏好配置(涛哥) |
|
| 69 | + |
|
| 70 | +### ✅ 保留的展览类型(14 个) |
|
| 71 | +历史、人文、古建筑、博物馆、寺庙古刹、世界遗产、考古、书法、传统文化、古代艺术、藏传佛教、古蜀文明、工艺美术、学术研究 |
|
| 72 | + |
|
| 73 | +### ❌ 过滤的展览类型(10 个) |
|
| 74 | +建筑艺术、民俗文化、国际艺术、生肖文化、非遗民俗、亲子教育、综合合集、当代艺术、地质科普、装置艺术 |
|
| 75 | + |
|
| 76 | +### 自动过滤系统 |
|
| 77 | +- **配置文件**:`user_preferences.json` |
|
| 78 | +- **过滤器**:`exhibition_filter.py` |
|
| 79 | +- **集成位置**:`crawler.py`(每日 9 点自动执行) |
|
| 80 | +- **效果**:重点推荐只显示符合兴趣的展览,完整清单保留所有 |
|
| 81 | + |
|
| 82 | +--- |
|
| 83 | + |
|
| 84 | +## 📊 重点推荐展览(符合用户兴趣) |
|
| 85 | + |
|
| 86 | +| 展览名称 | 地点 | 展期 | 票价 | 类型 | |
|
| 87 | +|---------|------|------|------|------| |
|
| 88 | +| 叩问永恒——庞贝的探索与发掘 🔥 | 国家博物馆 | 02-04~10-11 | ¥120/60 | 考古/古罗马 | |
|
| 89 | +| 双星耀世——三星堆—金沙古蜀文明展 🔥 | 国家博物馆 | 即日起~08-18 | 免费 | 古蜀文明 | |
|
| 90 | +| 万法归一:萨迦寺历史文化艺术展 | 故宫博物院 | 02-10~05-10 | 含门票 | 藏传佛教 | |
|
| 91 | +| 饰文焕彩——河北古代艺术珍品展 | 中国美术馆 | 02-13~05-12 | 免费 | 古代艺术 | |
|
| 92 | +| 跃马春风——楹联书法作品展 ⚠️ | 中国美术馆 | 02-11~03-08 | 免费 | 书法 | |
|
| 93 | +| 仁风景从——故宫藏捐献文物展 | 故宫博物院 | 2025-10-16 起 | 含门票 | 古代艺术 | |
|
| 94 | + |
|
| 95 | +--- |
|
| 96 | + |
|
| 97 | +## 🎯 核心经验教训 |
|
| 98 | + |
|
| 99 | +### 技术选择 |
|
| 100 | +1. **Playwright 是动态网站首选** - 成功爬取故宫、小红书 |
|
| 101 | +2. **Jina Reader 是静态网站神器** - 绕过反爬,返回 Markdown |
|
| 102 | +3. **官方汇总数据源最优** - 北京市文物局提供 8 个博物馆展览信息 |
|
| 103 | +4. **Cookies 配置要正确** - 小红书需要 cookies.json 到容器/app 目录 |
|
| 104 | + |
|
| 105 | +### 工作策略 |
|
| 106 | +1. **不要硬刚反爬** - 找替代数据源(如北京市文物局) |
|
| 107 | +2. **先判断网站类型** - 静态/动态决定工具选择 |
|
| 108 | +3. **批量处理 + 休息间隔** - 避免触发风控 |
|
| 109 | +4. **记录所有尝试** - 成功/失败都记录,便于复盘 |
|
| 110 | + |
|
| 111 | +### 用户偏好 |
|
| 112 | +1. **默认 3-4 人出行** - 不是 2 人 |
|
| 113 | +2. **住宿只选全季** - 舒适型,不选汉庭 |
|
| 114 | +3. **公共交通为主** - 不自驾,家人晕车 |
|
| 115 | +4. **历史人文优先** - 古建筑、博物馆、考古展 |
|
| 116 | +5. **过滤商业化** - 不喜欢仿古建筑、网红展 |
|
| 117 | + |
|
| 118 | +--- |
|
| 119 | + |
|
| 120 | +## 📝 后续优化 |
|
| 121 | + |
|
| 122 | +### 短期(本周) |
|
| 123 | +- [ ] 测试明日 9 点自动执行 |
|
| 124 | +- [ ] 监控过滤效果 |
|
| 125 | +- [ ] 收集用户反馈 |
|
| 126 | + |
|
| 127 | +### 长期(本月) |
|
| 128 | +- [ ] 添加更多博物馆官网 |
|
| 129 | +- [ ] 优化展览去重算法 |
|
| 130 | +- [ ] 添加展览图片抓取 |
|
| 131 | +- [ ] 集成预约提醒功能 |
|
| 132 | + |
|
| 133 | +--- |
|
| 134 | + |
|
| 135 | +*创建时间:2026-03-05 14:00* |
|
| 136 | +*维护者:Travel Agent* |