Anderson 视角

基于浏览器的图像注释工具用于计算机视觉数据集

发布于 2021年7月19日

更新于 2026年5月24日

作者

Martin Anderson

芬兰的研究人员开发了一个基于浏览器的图像标注工具，旨在提高图像注释过程的便捷性和速度，用于计算机视觉数据集。该工具作为一个与操作系统无关的浏览器扩展安装，允许用户在浏览的同时进行注释，而无需将标注会话放在专用的设置中，或运行客户端代码和其他特殊情况。

该工具被称为 BRIMA (低开销的浏览器仅图像注释工具)，由芬兰的约恩苏大学开发。它消除了对数据集进行刮取和编译到本地或远程目录的需要，并且可以配置为从任何公共平台的各种数据参数中提取有用的数据。

BRIMA 在行动。 来源：https://arxiv.org/pdf/2107.06351.pdf

通过这种方式，BRIMA（将在 ICIP 2021 上展示，当时代码也将被提供）消除了自动网页抓取系统被 IP 范围或其他方法阻塞并阻止数据收集的潜在障碍——这种情况将变得更加普遍，因为 IP 保护越来越受到关注，如最近微软的 AI 驱动代码生成工具 Copilot 所做的那样。

由于 BRIMA 仅用于人工注释，其使用也较少可能触发其他类型的障碍，例如 CAPTCHA 挑战或其他旨在阻止数据收集算法的自动系统。

自适应数据收集能力

BRIMA 通过 Firefox 添加项或 Chrome 扩展在 Windows、OSX 或 Linux 上实现，并且可以配置为根据特定平台可能暴露的数据点来摄取重要数据。例如，当在 Google Street View 中注释图像时，该系统可以考虑镜头的方向和视点，并注册用户关注的对象的确切地理位置。

BRIMA 于 2020 年 9 月由其创建者测试，在一个众包计划中生成一个用于 CCTV 对象（公共场所安装的视频监控摄像头或从公共场所可见的摄像头）的对象检测数据集的过程中。

该系统由一个轻量级的 JavaScript 客户端安装组成，形式为浏览器扩展，以及一个接收和编译注释数据的服务器端。服务器端安装的参考实现使用 Python 和 PHP 编写，使用 Flask 和 Swagger/OpenAPI，但研究人员强调，中心处理架构可以轻松移植到其他语言和配置中。

浏览器扩展和服务器通过 RESTful API 请求和 HTTP/XHR 进行通信，客户端数据以与 MS COCO 兼容的 JSON 格式发送回家。这意味着数据可以立即与多种流行的对象检测框架一起使用，包括 Facebook 的 Detectron2 和 CenterMask2 等 TensorFlow 后端。

项目特定工具

尽管 BRIMA 具有通用性，但它可以配置为高度特定的数据收集配置，包括下拉菜单和其他与特定领域相关的上下文输入。在下面的图像中，我们看到一个与相机信息相关的下拉菜单已被编写到 BRIMA 中，以便一组注释者可以提供详细和项目相关的信息。

此附加工具可以在本地配置。扩展程序还具有易于安装和可配置的键盘快捷键，以及彩色编码的 UI 元素。

该工作建立在近年来多次尝试改进公共或网络获取数据的图像注释便捷性的基础上。PhotoStuff 工具由 DARPA 支持，通过专用 Web 门户提供在线注释，可以在语义 Web 或作为独立应用程序运行；2004 年，UC Berkeley 提出了 相机手机上的照片注释，该项目大量依赖于元数据，这是由于当时网络覆盖和视口限制的局限性；2005 年，MIT 的 LabelMe 项目也采用了基于浏览器的注释，依赖于 MATLAB 工具；

自 2015 年发布以来，FOSS Python/QT 框架 LabelImg 已在众包注释努力中获得了普遍欢迎，具有专用的本地安装。然而，BRIMA 研究人员观察到，LabelImg 集中于 PascalVOC 和 YOLO 标准，不支持 MS COCO JSON 格式，并偏爱简单的矩形捕获区域（需要后续分割）而不是多边形轮廓工具，放弃了多边形轮廓工具。