将人工智能应用于实时视频处理：基础知识及更多内容

发布时间

3年前

2021 年 6 月 1 日

作者：马克西姆鞑靼人，数据科学工程师于莫比德夫.

在视频处理中使用人工智能 (AI) 并不是什么新鲜事。如果您关注图像处理以外的领域，那么它是人工智能最常见的用例之一。就像图像处理一样，视频处理也使用诸如计算机视觉、物体识别、机器学习和深度学习来增强这一过程。

无论您在哪些方面使用计算机视觉和 NLP 视频编辑和生成，对象识别视频内容自动标记任务，机器学习来简化 AI视频分析，或者深度学习来加速实时去除背景，用例日益增长。

继续阅读以了解在视频处理中使用人工智能时可以采取哪些方法。

实时视频处理的基础知识

让我们从基础开始。实时视频处理是使用对象和面部识别的监控系统中的一项重要技术。这也是工业领域人工智能视觉检测软件的首选流程。

那么，视频处理是如何工作的呢？视频处理涉及一系列步骤，包括解码、计算和编码。以下是您需要了解的内容：

现在，任何视频处理任务的目标都是尽可能快速、准确地完成这些步骤。实现这一目标的最简单方法包括：并行工作并优化算法以提高速度。简单来说？您需要利用文件分割和管道架构。

视频文件分割允许算法同时工作，从而允许它们使用更慢、更准确的模型。这是通过将视频分割成单独的部分然后同时处理来实现的。

您可以将视频分割视为虚拟文件生成的一种形式，而不是子文件生成。

尽管如此，视频文件分割并不是实时视频处理的最佳选择。究竟为什么？这个过程让你很难暂停、恢复和倒带正在处理的文件。

另一种选择是管道架构。此过程用于分割和并行处理处理过程中执行的任务，而不是直接分割视频。

下面是一个简单示例，展示了管道架构在实践中的样子，以及如何在视频监控系统中使用它来实时检测和模糊面部。

在此示例中，管道将任务分为解码、人脸检测、人脸模糊和编码。如果你想提高管道的速度，你可以使用管道深度学习技术.

那么解码和编码呢？有两种方法可以完成这些过程：软件和硬件。

您可能已经熟悉硬件加速的概念。这一过程的实现得益于最新 NVIDIA 显卡中安装的解码器和编码器以及 CUDA 内核。

那么，在编码和解码过程的硬件加速方面，您有哪些可用选项？以下是一些更受欢迎的选项：

编译具有 CUDA 支持的 OpenCV： 使用 CUDA 编译 OpenCV 可优化解码和使用 OpenCV 的任何管道计算。请记住，您需要用 C++ 编写它们，因为 Python 包装器不支持这一点。但在需要使用 GPU 进行解码和数值计算而不从 CPU 内存进行复制的情况下，它仍然是更好的选择之一。

使用 NVDEC/NVENC 编解码器支持编译 FFmpeg 或 GStreamer： 另一种选择是使用 FFmpeg 和 Gstreamer 自定义安装中包含的内置 NVIDIA 解码器和编码器。但是，我们建议如果可能的话使用 FFmpeg，因为它需要较少的维护。此外，大多数库都由 FFmpeg 提供支持，这意味着您将通过替换它来自动提高库的性能。