openclaw-video-visionAI 驱动的视频理解
抓取任意视频平台,提取关键帧,通过视觉 AI 生成结构化摘要。
openclaw-video-vision 是一个 OpenClaw 技能,它可以:
<video> 的网页)| 页面 | 描述 |
|---|---|
| 安装 | 前置条件、安装步骤和首次运行 |
| 配置 | 所有环境变量说明 |
| 提取模式 | auto / ytdlp / browser — 如何选择 |
| 云浏览器 | Browserless、Browserbase、Steel 配置 |
| Cookie | 需要登录或有年龄限制的内容 |
| 故障排查 | 常见错误及解决方法 |
| 架构 | 代码结构和数据流 |
| 平台 | yt-dlp 路径 | 浏览器路径 |
|---|---|---|
| YouTube | 支持 | 支持 |
| Bilibili | 支持 | 支持 |
通用 <video> 页面 | 部分支持 | 支持 |
视频 URL
|
v
[阶段 1] yt-dlp + FFmpeg ---- 成功 ----> 视觉 AI -> 摘要
|
| 失败
v
[阶段 2] 浏览器 (Playwright) ---- 成功 ----> 视觉 AI -> 摘要阶段 1 仅需要 yt-dlp 和 FFmpeg — 无需浏览器,无需 Chromium。 阶段 2 需要 playwright-core(可选依赖)+ Chromium 或云浏览器。
你可以通过 VIDEO_VISION_MODE 锁定提取路径。参见提取模式。