MEMORY.md
... ...
@@ -1,5 +1,39 @@
1 1
# Travel Agent 记忆
2 2
3
+## 🎯 北京展览爬取系统(2026-03-05)⭐ 重点
4
+
5
+### 完成任务
6
+- **P2 任务**:爬取 10 个可信数据源,获取 39 个展览/攻略
7
+- **自动过滤**:根据用户偏好自动过滤不符合兴趣的展览
8
+- **飞书文档**:每日 9 点自动更新 https://feishu.cn/docx/TOnAdwh2DoteNSxMigPcGnh8njh
9
+
10
+### 技术方案
11
+1. **Playwright** - 动态网站(故宫、小红书)
12
+2. **web_fetch + Jina Reader** - 静态网站(豆瓣、中国美术馆)
13
+3. **北京市文物局** - 最佳权威数据源(8 个博物馆汇总)
14
+
15
+### 用户偏好(涛哥)
16
+- **保留类型**:历史、人文、古建筑、博物馆、考古、书法、古代艺术、藏传佛教等 14 个
17
+- **过滤类型**:建筑艺术、民俗文化、国际艺术、生肖文化、亲子教育、当代艺术等 10 个
18
+- **配置文件**:`beijing-exhibitions/config/user_preferences.json`
19
+
20
+### 核心经验
21
+- 不是一门手艺走天下,根据网站类型选择工具
22
+- 找替代数据源(北京市文物局汇总最优)
23
+- 默认 3-4 人出行,住宿只选全季,公共交通为主
24
+
25
+---
26
+
27
+## 🔧 系统更新(2026-03-05)
28
+
29
+**Chromium 已安装可用:**
30
+- 版本:Google Chrome 145.0.7632.159
31
+- 路径:`/usr/bin/google-chrome`
32
+- 用途:Playwright 浏览器自动化(网页读取、截图)
33
+- 安装源:Google 官方仓库
34
+
35
+---
36
+
3 37
## 📅 最近完成任务(2026-03-01 至 2026-03-03)
4 38
5 39
### ✅ 山西全省深度调研(2026-03-02)⭐ 重点
memory/2026-03-05.md
... ...
@@ -0,0 +1,136 @@
1
+# 北京展览爬取系统 - 2026-03-05
2
+
3
+## 🎯 任务背景
4
+- **任务类型**:P2 任务(持续执行直到完成)
5
+- **执行时间**:2026-03-05 10:00-14:00
6
+- **目标**:爬取北京各大博物馆展览信息,每日 9 点自动更新飞书文档
7
+
8
+---
9
+
10
+## ✅ 完成的数据源(10/10)
11
+
12
+### 官方权威数据源(7 个)
13
+| 数据源 | 数量 | 技术方案 | 状态 |
14
+|--------|------|----------|------|
15
+| 故宫博物院官网 | 3 个 | Playwright 浏览器自动化 | ✅ 成功 |
16
+| 中国美术馆官网 | 5 个 | web_fetch + Jina Reader | ✅ 成功 |
17
+| 国家博物馆官网 | 3 个 | 北京市文物局官网汇总 | ✅ 成功 |
18
+| 首都博物馆官网 | 1 个 | Playwright + HTTPS | ✅ 成功 |
19
+| 中国地质博物馆 | 1 个 | 北京市文物局官网 | ✅ 成功 |
20
+| 中国园林博物馆 | 1 个 | 北京市文物局官网 | ✅ 成功 |
21
+| 中国非物质文化遗产馆 | 1 个 | 北京市文物局官网 | ✅ 成功 |
22
+
23
+### 民间数据源(3 个)
24
+| 数据源 | 数量 | 技术方案 | 状态 |
25
+|--------|------|----------|------|
26
+| 豆瓣同城 | 10 个 | web_fetch + Jina Reader | ✅ 成功 |
27
+| 小红书 | 13 篇 | Playwright + Cookies | ✅ 成功 |
28
+| 北京市文物局 | 8 个 | 官方汇总 | ✅ 成功 |
29
+
30
+**总计**:39 个展览/攻略,其中国家级博物馆 15 个,免费展览 12 个
31
+
32
+---
33
+
34
+## 🔧 技术方案总结
35
+
36
+### 最佳工具组合
37
+1. **Playwright** - 动态网站首选(故宫、小红书)
38
+2. **web_fetch + Jina Reader** - 静态网站首选(豆瓣、中国美术馆)
39
+3. **官方汇总数据源** - 最佳方案(北京市文物局)
40
+
41
+### 核心经验
42
+- **不是一门手艺走天下**:根据网站类型选择工具
43
+- **找替代数据源**:北京市文物局汇总了各大博物馆展览信息
44
+- **Cookies 配置**:小红书需要配置 cookies.json 到 Docker 容器
45
+- **用户偏好过滤**:自动过滤不符合兴趣的展览类型
46
+
47
+---
48
+
49
+## 📁 创建的文件
50
+
51
+### 配置文件
52
+- `/root/.openclaw/workspace/travel/beijing-exhibitions/config/user_preferences.json` - 用户兴趣偏好
53
+- `/root/.openclaw/workspace/travel/beijing-exhibitions/config/FILTER_CONFIG.md` - 过滤配置说明
54
+
55
+### 爬虫脚本
56
+- `exhibition_filter.py` - 展览过滤器(自动应用用户偏好)
57
+- `crawler.py` - 主爬虫(已集成过滤器)
58
+- `detailed_crawler.py` - 详细爬取脚本
59
+- `playwright_*.py` - Playwright 系列脚本
60
+- `xiaohongshu_*.py` - 小红书爬取系列脚本
61
+
62
+### 飞书文档
63
+- **文档链接**:https://feishu.cn/docx/TOnAdwh2DoteNSxMigPcGnh8njh
64
+- **doc_token**:`TOnAdwh2DoteNSxMigPcGnh8njh`
65
+
66
+---
67
+
68
+## 👤 用户偏好配置(涛哥)
69
+
70
+### ✅ 保留的展览类型(14 个)
71
+历史、人文、古建筑、博物馆、寺庙古刹、世界遗产、考古、书法、传统文化、古代艺术、藏传佛教、古蜀文明、工艺美术、学术研究
72
+
73
+### ❌ 过滤的展览类型(10 个)
74
+建筑艺术、民俗文化、国际艺术、生肖文化、非遗民俗、亲子教育、综合合集、当代艺术、地质科普、装置艺术
75
+
76
+### 自动过滤系统
77
+- **配置文件**:`user_preferences.json`
78
+- **过滤器**:`exhibition_filter.py`
79
+- **集成位置**:`crawler.py`(每日 9 点自动执行)
80
+- **效果**:重点推荐只显示符合兴趣的展览,完整清单保留所有
81
+
82
+---
83
+
84
+## 📊 重点推荐展览(符合用户兴趣)
85
+
86
+| 展览名称 | 地点 | 展期 | 票价 | 类型 |
87
+|---------|------|------|------|------|
88
+| 叩问永恒——庞贝的探索与发掘 🔥 | 国家博物馆 | 02-04~10-11 | ¥120/60 | 考古/古罗马 |
89
+| 双星耀世——三星堆—金沙古蜀文明展 🔥 | 国家博物馆 | 即日起~08-18 | 免费 | 古蜀文明 |
90
+| 万法归一:萨迦寺历史文化艺术展 | 故宫博物院 | 02-10~05-10 | 含门票 | 藏传佛教 |
91
+| 饰文焕彩——河北古代艺术珍品展 | 中国美术馆 | 02-13~05-12 | 免费 | 古代艺术 |
92
+| 跃马春风——楹联书法作品展 ⚠️ | 中国美术馆 | 02-11~03-08 | 免费 | 书法 |
93
+| 仁风景从——故宫藏捐献文物展 | 故宫博物院 | 2025-10-16 起 | 含门票 | 古代艺术 |
94
+
95
+---
96
+
97
+## 🎯 核心经验教训
98
+
99
+### 技术选择
100
+1. **Playwright 是动态网站首选** - 成功爬取故宫、小红书
101
+2. **Jina Reader 是静态网站神器** - 绕过反爬,返回 Markdown
102
+3. **官方汇总数据源最优** - 北京市文物局提供 8 个博物馆展览信息
103
+4. **Cookies 配置要正确** - 小红书需要 cookies.json 到容器/app 目录
104
+
105
+### 工作策略
106
+1. **不要硬刚反爬** - 找替代数据源(如北京市文物局)
107
+2. **先判断网站类型** - 静态/动态决定工具选择
108
+3. **批量处理 + 休息间隔** - 避免触发风控
109
+4. **记录所有尝试** - 成功/失败都记录,便于复盘
110
+
111
+### 用户偏好
112
+1. **默认 3-4 人出行** - 不是 2 人
113
+2. **住宿只选全季** - 舒适型,不选汉庭
114
+3. **公共交通为主** - 不自驾,家人晕车
115
+4. **历史人文优先** - 古建筑、博物馆、考古展
116
+5. **过滤商业化** - 不喜欢仿古建筑、网红展
117
+
118
+---
119
+
120
+## 📝 后续优化
121
+
122
+### 短期(本周)
123
+- [ ] 测试明日 9 点自动执行
124
+- [ ] 监控过滤效果
125
+- [ ] 收集用户反馈
126
+
127
+### 长期(本月)
128
+- [ ] 添加更多博物馆官网
129
+- [ ] 优化展览去重算法
130
+- [ ] 添加展览图片抓取
131
+- [ ] 集成预约提醒功能
132
+
133
+---
134
+
135
+*创建时间:2026-03-05 14:00*
136
+*维护者:Travel Agent*