Skip to content

openclaw-video-visionAI 驱动的视频理解

抓取任意视频平台,提取关键帧,通过视觉 AI 生成结构化摘要。

概述

openclaw-video-vision 是一个 OpenClaw 技能,它可以:

  1. 接收一个视频 URL(YouTube、Bilibili 或任何包含 <video> 的网页)
  2. 通过 yt-dlp + FFmpeg浏览器截图 提取关键帧
  3. 将帧发送给视觉 AI 模型进行结构化摘要

快速导航

页面描述
安装前置条件、安装步骤和首次运行
配置所有环境变量说明
提取模式auto / ytdlp / browser — 如何选择
云浏览器Browserless、Browserbase、Steel 配置
Cookie需要登录或有年龄限制的内容
故障排查常见错误及解决方法
架构代码结构和数据流

支持的平台

平台yt-dlp 路径浏览器路径
YouTube支持支持
Bilibili支持支持
通用 <video> 页面部分支持支持

两种提取路径

视频 URL
    |
    v
[阶段 1] yt-dlp + FFmpeg ---- 成功 ----> 视觉 AI -> 摘要
    |
    | 失败
    v
[阶段 2] 浏览器 (Playwright) ---- 成功 ----> 视觉 AI -> 摘要

阶段 1 仅需要 yt-dlpFFmpeg — 无需浏览器,无需 Chromium。 阶段 2 需要 playwright-core(可选依赖)+ Chromium 或云浏览器。

你可以通过 VIDEO_VISION_MODE 锁定提取路径。参见提取模式