Hello World
这是lhk的个人博客,终于搭建起来了
这是lhk的个人博客,终于搭建起来了
基于TSM的高空抛物识别系统 模型选择 特性 YOLO (目标检测) TSM (动作识别) 输入单元 单张图片 (.jpg) 视频片段 (.mp4 / 帧序列) 标签文件 坐标框 (txt/xml) 类别 ID (0 或 1) 难点 小目标检测、重叠遮挡 采样频率、动作起始点定位 本项目应用 识别“这是个瓶子” 识别“瓶子正在坠落” OpenMMLab (MMAction2) 框架,搭配 TSM 模型。 TSM(Temporal Shift Module)简介 一句话定义 TSM 是一种轻量级视频理解模型,通过在时间维度上"移动"特征来捕捉动作信息,几乎不增加计算量。 核心原理 普通 CNN 处理图片时,每一帧是独立的——它不知道前一帧和后一帧发生了什么。 TSM 的做法很简单:把特征图在时间维度上移一下。 时间步: t-1 t t+1 通道1: ←───── ───── 通道2: ───── ─────→ 通道3: 不动 不动 不动 一部分通道向前看一帧 一部分通道向后看一帧 一部分通道不动 这样模型在处理第 t 帧时,天然就能"感知"到 t-1 和 t+1 帧的信息,从而理解运动方向和速度。 为什么适合高空抛物 特性 单帧检测(YOLO) TSM(视频理解) 输入 1 张图片 8 帧连续画面 能识别 “有个瓶子” “瓶子在往下掉” 计算量 低 和单帧几乎一样 高空抛物的关键不是"有什么东西",而是"这个东西在运动"。TSM 能捕捉这种时序变化,而且计算量几乎没有增加。 ...