视频生成器 – Unite.AI

A man pointing at his clone generated with AI while recording with a camera.

2026年4月2日 2026年4月2日

HeyGen 評測：我將自己複製成一個令人恐懼的 AI 化身

如果你曾經坐在空白的螢幕前，苦於製作一個看起來像專業的視頻，但又沒有足夠的預算、團隊或時間，那麼你並不是唯一一個。幸運的是，HeyGen 就是為了填補這個空白而誕生的。它讓你可以生成真實的會話化身、將你的視頻翻譯成 175 多種語言，甚至可以創建一個數字化的自己：無需相機、團隊或編輯經驗。在這篇 HeyGen 評測中，我將討論它的優點和缺點、它是什麼、誰適合使用它，以及它的關鍵功能。然後，我將展示如何使用它來生成和編輯一個從文字提示生成的視頻和複製自己成一個 AI 化身。最後，我將比較 HeyGen 和我的前三個替代方案（Synthesys、Deepbrain 和 Synthesia）。如果你因為視頻內容感覺太難而一直推遲，那麼 HeyGen 可能就是改變這種情況的工具。評測結果HeyGen 是一個強大且易於使用的 AI 視頻平台，創建真實的會話化身，支持 175 多種語言，具有高品質的輸出，節省時間和生產成本。然而，它的價格、偶爾的渲染延遲和對於會話化身真實性和透明度的倫理問題可能是有些人的一個缺點。優點易於使用的界面（無需編輯技能或設備）真實的 AI 化身，具有自然的唇部同步高品質的 1080p/4K 輸出...

2026年3月18日 2026年3月18日

作者 Janine Heinrichs

Pictory评论（2026年June）：从博客到视频，只需几分钟

作者 Janine Heinrichs

如果您曾经盯着空白的视频编辑器，试图弄清楚如何将博客文章转换成人们会观看的内容，您已经知道这种挫败感。Pictory是改变这一切的工具。为了展示它的快速和易用性，我实际上将您正在阅读的整个文章转换成了 Pictory的文本到视频工具生成的视频：https://youtu.be/Wu4W5m9pnPM它允许您将脚本、文章或网络研讨会转换成可分享的视频，仅需几分钟。无需相机、Premiere Pro或制作预算。在这篇 Pictory评论中，我将讨论其优缺点、是什么、谁适合使用以及其主要功能。然后，我将展示如何使用它生成脚本和视频，并在平台内编辑。我将通过比较Pictory与我的前三名替代品（Synthesys、Synthesia和InVideo）来完成这篇文章。无论您是内容创作者、营销人员还是教育工作者，Pictory的承诺很简单：减少与软件的斗争时间，增加实际发布时间。在我的经验中，Pictory实现了这一承诺。尤其是当您试图在不增加工作量的情况下扩大视频内容时。结论Pictory使创建和编辑视频变得快速和容易，具有人工智能头像、语音克隆和品牌套件等工具。然而，一些视频可能会感觉很通用，人工智能拍摄的内容可能与内容不完全吻合，试用限制和水印可能会很烦人。尽管如此，它仍然是将脚本、博客或演示文稿转换成专业内容的可靠方式。优点和缺点快速将脚本、博客、PPT或视频转换成可编辑的片段，节省数小时时间强大的功能，如人工智能头像、语音克隆、品牌套件和亮点提取各种导出选项（链接、仅音频、仅文本或整个视频）界面易于导航，无需学习曲线 14天免费试用（无需信用卡）人工智能库存视频可能与内容不符或缺乏技术主题的细节视频可能相当通用，因此您需要进行大量编辑试用视频包含水印人工智能声音可能感觉很机器人计划限制视频分钟数什么是Pictory？https://www.youtube.com/watch?v=T14-8APRpXEPictory是一款人工智能视频创建平台，可以将文本内容（如脚本、博客文章、URL、文章、PPT、图像，甚至现有视频）转换成可编辑的视频，仅需几分钟。Pictory于2020年推出，恰逢内容再利用趋势的高峰。其目标是使将博客和播客转换成视频变得快速和可扩展。创始人（Vikram Chalana、Abid Ali Mohammed和Vishal Chalana）审视了内容创作的格局，并问自己：为什么博客作者、营销人员和教育工作者要在视频制作上花费数千美元，而他们已经拥有了书面内容？该平台的建立是为了弥合这一差距。核心承诺核心承诺很简单：将您拥有的任何内容（无论是博客文章、脚本、Zoom录音还是长时间的网络研讨会）转换成可分享的视频，而无需触摸相机或复杂的编辑时间轴。无需Adobe Premiere技能或语音工作室。只需您的内容和浏览器。用户友好界面我对界面的干净和易用性印象深刻。仪表盘为我提供了八个起点：文本到视频 URL到视频人工智能视频编辑器...

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

2025年1月16日 2025年1月16日

作者 Martin Anderson

为长视频生成完善叙事的一份食谱

作者 Martin Anderson

最近，Hunyuan Video 生成模型的公开发布加剧了关于大型多模态视觉语言模型可能创造整个电影的潜力的讨论。然而，正如我们观察到的，这种前景在当前仍然非常遥远，原因有很多。其中一个原因是大多数 AI 视频生成器的注意力窗口非常短，难以维持一段短视频的连贯性，更不用说一系列镜头了。另一个原因是，视频内容的一致性引用（例如可探索的环境，不应该随机改变，如果你重温它们）只能通过定制技术（如低秩适应（LoRA））在扩散模型中实现，这限制了基础模型的即时能力。因此，生成视频的演进似乎注定会停滞，除非新的叙事连续性方法被开发出来。叙事连续性的食谱考虑到这一点，美国和中国之间的新合作提出了使用教学视频作为未来叙事连续性系统的可能模板。点击播放。 VideoAuteur 项目系统化地分析了烹饪过程的各个部分，以生成一个精细的字幕数据集和一个用于生成烹饪视频的编排方法。请参阅源站点以获取更好的分辨率。源：https://videoauteur.github.io/题为 VideoAuteur 的工作提出了一种两阶段管道，用于生成教学烹饪视频，使用协调状态的关键帧和字幕，实现了最先进的结果——虽然是在一个相对冷门的领域。VideoAuteur 的项目页面还包括一些更吸引眼球的视频，它们使用相同的技术，例如一个拟议的漫威/DC跨界电影预告片：点击播放。两个来自不同宇宙的超级英雄在一个虚假预告片中相遇，来自 VideoAuteur。请参阅源站点以获取更好的分辨率。页面上还有一些类似的宣传视频，用于一个不存在的 Netflix 动物系列和特斯拉汽车广告。在开发 VideoAuteur 的过程中，作者尝试了不同的损失函数和其他新方法。为了开发一个食谱生成工作流程，他们还策划了 CookGen，这是最大的专注于烹饪领域的数据集，包含 200,000 个视频片段，平均时长为 9.5 秒。平均每个视频有 768.3 个字，CookGen 是同类数据集中最详细的。作者使用了多种视觉语言模型，包括其他方法，来确保描述尽可能详细、相关和准确。烹饪视频被选中，因为烹饪教程有一个结构化和明确的叙事，使得注释和评估变得更容易。除了色情视频（可能会进入这个领域）之外，很难想出其他任何类型的视频，它的视觉和叙事都如此“公式化”。作者表示：‘我们提出的两阶段自回归管道，包括一个长叙事导演和视觉条件视频生成，展示了在生成长叙事视频中语义一致性和视觉保真度的改进。’通过对我们的数据集的实验，我们观察到视频序列中空间和时间一致性的提高。...

Image produced by ChatGPT-4o, depicting diverse objects exhibiting aberrant physical properties. The prompt was developed conversationally

2024年11月26日 2024年11月26日

作者 Martin Anderson

人工智能世界模型真的能理解物理定律吗？

作者 Martin Anderson

视觉语言人工智能模型的最大希望是，它们有一天将变得更加自主和多才多艺，像我们通过早期经验发展出对物理定律的天然理解一样，融入物理定律的原理。例如，儿童的球类游戏往往会发展出对运动学的理解，以及重量和表面质地对轨迹的影响。同样，通过与诸如浴缸、洒出的饮料、海洋、游泳池和其他多种液体体相互作用，我们会对液体在重力下的行为方式发展出多样化和可扩展的理解。即使是对较少见现象的假设——例如燃烧、爆炸和建筑物在压力下的重量分布——也会通过观看电视节目和电影，或社交媒体视频在我们身上无意识地吸收。当我们在学术水平上学习这些系统背后的原理时，我们只是在对这些系统的直觉（但不明智）的精神模型进行“改造”。独树一帜目前，大多数人工智能模型更为“专业化”，许多模型要么是在特定用例的图像或视频数据集上进行了微调，要么是从头开始训练的。这些模型不太可能发展出对支配物理定律的普遍理解。其他模型可能表现出对物理定律的理解，但它们可能只是在复制训练数据中的样本，而不是真正理解运动物理学等领域的基础知识，以便能够产生真正新颖（并在科学上可信）的输出，以用户的提示为依据。在人工智能系统的商品化和商业化的这个关键时刻，区分新型人工智能模型的精心制作的营销和它们的局限性的现实，就取决于我们和投资者的审查。11月份最有趣的论文之一，由字节跳动研究团队领导，探讨了这种问题，研究了“万能”生成模型（如Sora）之间的明显和真正的能力差距。这项工作得出结论，在当前的技术水平下，这类模型的生成输出更可能是复制训练数据，而不是真正展示对现实世界中运行的基本物理约束的理解。论文指出：‘这些模型可以很容易地被训练集中的“欺骗性”示例偏斜，导致它们在某些条件下以“基于案例”的方式泛化。这一现象，也被观察到在大型语言模型中，描述了模型在解决新任务时参考类似训练案例的趋势。 ‘‘例如，考虑一个在数据上训练的视频模型，该数据显示一个高速球在统一线性运动中移动。如果通过水平翻转视频来执行数据增强，从而引入反向运动，模型可能会生成一个场景，其中一个低速球在初始帧之后反转方向，即使这种行为在物理上是不正确的。’我们将更详细地研究这篇论文——题为《使用LLM进行决策的世界模型评估》——但首先，让我们看一下这些明显限制的背景。记忆的回声没有泛化能力，一个训练好的人工智能模型只不过是一个昂贵的对其训练数据的引用表：找到合适的搜索词，你就可以召唤出训练过程中看到的数据的一个实例。在这种情况下，模型实际上是作为一个“神经搜索引擎”运行，因为它不能产生抽象或“创造性的”期望输出的解释，而是复制训练过程中看到的数据的某种微小变体。这被称为记忆——一个有争议的问题，因为真正具有弹性和解释能力的AI模型往往缺乏细节，而真正详细的模型往往缺乏原创性和灵活性。受记忆影响的模型能够复制训练数据的能力是一个潜在的法律障碍，因为模型的创建者可能没有使用该数据的无障碍权；并且可以通过越来越多的提取方法证明从该数据中获得的好处。由于记忆，未经授权的数据的痕迹可以通过多个训练系统“菊花链”式地持续存在——就像一个不可磨灭的、无意的水印，即使机器学习从业者已经采取措施确保使用“安全”的数据。世界模型然而，记忆的主要使用问题是，它往往会产生“智能”的幻觉，或者表明人工智能模型已经概括了基本定律或领域，而实际上是大量记忆的数据提供了这种幻觉（即，模型有这么多潜在的数据示例可供选择，以至于很难让人类区分它是否在复制学习的内容还是真正理解所涉及的概念）。这个问题对日益增长的对世界模型的兴趣有着重要的影响——即高度多样化和昂贵训练的人工智能系统的前景，它们包含多个已知的定律，并且可以被丰富地探索。世界模型在生成图像和视频领域尤其感兴趣。2023年，RunwayML启动了一个关于这种模型的开发和可行性的研究计划；DeepMind最近聘请了著名的Sora生成视频的创造者之一来开发这种模型；像Higgsfield这样的初创公司正在大量投资图像和视频合成的世界模型。硬组合新一代生成视频人工智能系统的新发展承诺的是，它们可以学习基本的物理定律，例如运动、人类运动学（例如步态特征）、流体动力学以及其他在视觉上对人类来说很熟悉的物理现象。如果生成人工智能能够实现这一里程碑，它就可以产生超现实的视觉效果，描绘爆炸、洪水和多个物体的可信碰撞事件。但是，如果人工智能系统只是被训练在成千上万（或数十万）的视频上展示此类事件，那么它可能会在用户查询类似训练数据时令人信服地复制训练数据；但是，如果查询将太多概念组合在一起，这些概念在数据中没有以这种组合方式表示，那么它可能会失败。这些限制不会立即显现出来，直到你用具有挑战性的概念组合来测试系统。例如，一个相对常见且广泛传播的事件，例如“一栋建筑被拆除”，可能在训练模型的数据集中出现多次，因此模型可以在参数中对该概念进行概括，并产生真正新颖的输出；然而，如果你要求一个更奇怪或更虚构的例子，例如“埃菲尔铁塔被外星入侵者炸毁”，那么模型将需要组合多个领域，例如“金属特性”、“爆炸特征”、“重力”、“风阻”和“外星飞船”。这是一个“超分布”（OOD）示例，它结合了如此多的交织概念，以至于该系统可能会生成不令人信服的示例，或者会默认为最接近的语义示例，即使该示例不符合用户的提示。物理约束新论文——字节跳动、清华大学和特拉维夫理工学院的合作——表明，像Sora这样的模型不仅没有真正地内化确定性的物理定律，而且似乎在大多数情况下，增加数据规模并没有带来真正的改进。论文探讨了特定物理定律的外推极限，以及模型的组合泛化能力——即两个不同物理原理的表示被合并成一个单一的生成输出的实例。[视频宽度=”1200″高度=”712″mp4=”https://www.unite.ai/wp-content/uploads/2024/11/physical_limitations_bytedance.mp4″][/视频]新论文的视频摘要。来源：https://x.com/bingyikang/status/1853635009611219019研究人员选择了三个物理定律来进行研究：抛物线运动、统一线性运动和完全弹性碰撞。如上所述的视频所示，发现表明像Sora这样的模型并没有真正地内化物理定律，而是倾向于复制训练数据。此外，作者发现，颜色和形状等方面在推理时变得如此交织，以至于生成的球可能会变成一个正方形，显然是因为训练数据中的一个类似运动示例中有一个正方形，而不是一个球（见上面的嵌入视频中的示例）。论文得出结论：‘我们的研究表明，仅仅扩大规模不足以使视频生成模型发现基本的物理定律… ‘‘… [发现] 表明，仅仅扩大规模并不能解决OOD问题，尽管它可以提高其他场景下的性能。 ‘‘我们的深入分析表明，视频模型的泛化更依赖于引用类似的训练示例，而不是学习通用规则。我们观察到一种“基于案例”的行为，其优先顺序为颜色 > 尺寸 > 速度 > 形状。 ‘‘[我们的] 研究表明，简单地扩大规模不足以使视频生成模型发现基本的物理定律。 ‘被问及研究团队是否找到了解决这个问题的方法时，论文作者之一评论说：‘不幸的是，我们没有。实际上，这可能是整个人工智能社区的使命。 ‘方法和数据研究人员使用了变分自编码器（VAE）和DiT架构来生成视频样本。在这种设置中，VAE产生的压缩潜在表示与DiT对去噪过程的建模一起工作。视频是在Stable Diffusion V1.5-VAE上进行训练的。架构在基本上保持不变，只有末端过程的架构增强：‘[我们保留]原始2D卷积、组归一化和空间维度上的注意力机制的大部分。 ‘‘为了将此结构膨胀为空间-时间自编码器，我们将编码器和解码器的最后几个2D下采样块转换为3D块，并使用多个额外的1D层来增强时间建模。 ‘为了使视频建模成为可能，修改后的VAE与HQ图像和视频数据一起进行了联合训练，2D生成对抗网络（GAN）组件本地于SD1.5架构进行了3D增强。用于训练的图像数据集是Stable Diffusion的原始来源LAION-Aesthetics，经过过滤，以及DataComp。视频数据是从Vimeo-90K、Panda-70m和HDVG数据集中精心策划的子集。数据经过一百万步训练，应用了随机resize裁剪和随机水平翻转作为数据增强过程。翻转如上所述，随机水平翻转数据增强过程可能是训练一个旨在产生真实运动的系统的负担。这是因为训练模型的输出可能会同时考虑对象的两个方向，并在尝试处理这些冲突数据时导致随机逆转（见上面的嵌入视频）。另一方面，如果你关闭水平翻转，模型更有可能产生仅遵循从训练数据中学习的单一方向的输出。因此，没有简单的解决方案，除了系统真正地吸收了运动的全部可能性——本地版本和翻转版本——一种儿童很容易发展的能力，但似乎对人工智能模型来说更具挑战性。测试对于第一组实验，研究人员制定了一个2D模拟器来生成遵循经典力学定律的对象运动和碰撞的视频，从而为模型的评估提供了大量受控的数据集，排除了真实世界视频的模糊性。上述三个基本场景是测试的重点：统一线性运动、完全弹性碰撞和抛物线运动。使用了不同大小（从30,000到300万个视频）的数据集来训练不同大小和复杂度（从DiT-S到DiT-L）的模型，每个视频的前三帧用于条件化。模型被训练为一百万步，使用256×256的分辨率，视频帧数为32帧。研究人员发现，同分布（ID）结果随着数据量的增加而良好扩展，而OOD生成没有改善，表明存在泛化方面的缺陷。论文指出：‘这些发现表明，仅仅扩大规模不足以使模型在OOD场景中进行推理。 ‘接下来，研究人员测试和训练了旨在展示组合泛化能力的系统，其中两个不同的运动被合并以产生忠实于每个单独运动背后的物理定律的连贯运动。对于这一测试阶段，作者使用了PHYRE模拟器，创建了一个2D环境，展示了多个和多样形状的物体在自由落体中相互碰撞，涉及各种复杂的相互作用。评估指标为视频距离（FVD）、结构相似性指数（SSIM）、峰值信噪比（PSNR）、学习的感知相似性度量（LPIPS）和人工研究（在结果中表示为“异常”）。创建了三个规模的训练数据集，分别为10万、60万和300-600万个视频。使用了DiT-B和DiT-XL模型，因为视频的复杂性增加了，条件使用的是第一帧。模型被训练为一百万步，分辨率为256×256，帧率为每个视频32帧。测试的结果表明，仅仅增加数据量是不够的：论文指出：‘这些结果表明，模型容量和组合空间的覆盖对于组合泛化至关重要。这种见解意味着视频生成的缩放定律应该专注于增加组合多样性，而不是仅仅扩大数据量。 ‘最后，研究人员进行了进一步的测试，以尝试确定视频生成模型是否真正内化了物理定律，还是简单地在推理时记忆和复制训练数据。他们检查了“基于案例”的泛化的概念，即模型在面对新情况时倾向于模仿特定的训练示例，以及检查统一运动的例子——特别是训练数据中的运动方向如何影响训练模型的预测。为统一运动和碰撞分别策划了两个训练数据集，每个数据集由显示速度在2.5到4个单位之间的统一运动视频组成，使用前三个帧作为条件化。在训练后，测试是在已见和未见场景上进行的。以下是统一运动生成测试的结果：作者指出：‘[有]一个大间隙的训练集，模型倾向于生成视频，其中速度要么很高，要么很低，以类似训练数据的方式，当初始帧显示中等速度。 ‘对于碰撞测试，涉及的变量更多，模型需要学习一个二维非线性函数。作者观察到，“欺骗性”示例的存在，例如反向运动（即一个球从表面弹回并改变其方向），会误导模型并导致其生成物理上不正确的预测。结论如果一个非人工智能算法（即“烘焙”、程序方法）包含对物理现象（如流体、重力下的物体或压力下的物体）行为的数学规则，则有一套可用于准确渲染的不变常数。然而，新论文的发现表明，在训练生成模型时，并没有发展出对经典物理定律的等效关系或内在理解，而且增加数据量并没有解决这个问题，而是使其变得更加模糊——因为有更多的训练视频可供系统在推理时模仿。* 我将作者的内联引用转换为超链接。首次发布于2024年11月26日星期二

2024年11月5日 2024年11月5日

作者 Janine Heinrichs

Creatify 評測：如何將產品連結轉換為廣告影片

作者 Janine Heinrichs

您是否曾經希望能夠在不聘請昂貴製作團隊的情況下創建高品質的影片廣告？在今天的快速數字化世界中，影片是一切。 Aberdeen Group 表示，影片比非影片內容推動了 49% 的收入增長。但是，如果您像大多數小型企業或內容創作者一樣，您可能沒有時間、預算或廣泛的影片編輯技能來創建這些影片！我最近發現了解決這個問題的方法，它叫做 Creatify。這是一個基於 AI 的工具，可以在幾分鐘內將單個產品連結轉換為精緻的影片廣告！您將對內容有完整的自訂控制權，从編輯腳本到創建自訂的 AI_avatar。在這個 Creatify 評測中，我將討論優缺點、它是什麼、誰是它的最佳使用者，以及其關鍵功能。然後，我將展示如何使用 Creatify 生成真實的廣告影片，只需一個連結！我將通過比較 Creatify 與我最好的三個替代方案（Pictory、Synthesys 和 Deepbrain AI）來完成這篇文章。到最後，您將知道 Creatify 是否適合您！評測結果Creatify 提供了一種快速、經濟的方式來生成影片廣告。其易於使用的界面、多語言支持...

An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, 2024年9月24日 13:27:31

2024年9月24日 2024年9月24日

作者 Martin Anderson

使用智能手机的“振动”功能检测视频会议深度伪造

作者 Martin Anderson

新加坡的最新研究提出了一种新颖的方法来检测智能手机视频会议工具的另一端是否有人使用诸如 DeepFaceLive 等方法来冒充他人。这项新方法被称为 SFake ，它放弃了大多数系统采用的被动方法，而是通过智能手机的“振动”功能（使用智能手机中常见的“振动”机制）来使用户的手机振动，并微妙地模糊他们的脸部。尽管实时深度伪造系统可以复制运动模糊，但只要训练数据中包含模糊的镜头，或者至少在预训练数据中包含模糊的镜头，它们就无法快速响应这种意外的模糊，并继续输出非模糊的面部部分，揭示了深度伪造会议呼叫的存在。测试结果表明，SFake在研究人员自行创建的数据集上表现出了色，甚至在面对挑战性情况下，例如视频会议中自然的手部运动，SFake仍然能够检测出深度伪造。视频会议深度伪造检测的日益增长的需求最近，视频会议深度伪造检测的研究有所增加。在过去几年中，成功的语音深度伪造攻击之后，今年早些时候，一名金融工作者被欺骗成为了一名深度伪造视频会议呼叫中的CFO，转移了2500万美元给骗子。尽管这种系统需要高水平的硬件访问权限，但许多智能手机用户已经习惯于金融和其他类型的验证服务要求我们记录面部特征以进行面部识别（事实上，这是LinkedIn验证过程的一部分）。因此，似乎这种方法很可能会在视频会议系统中越来越多地被采用，因为这种犯罪继续引起关注。大多数解决方案都假设一个非常静态的场景，即通信者使用静止的网络摄像头，没有运动或过度的环境或照明变化。智能手机呼叫没有这样的“固定”情况。相反，SFake使用一系列检测方法来补偿手持智能手机视频会议的高可变性，并且似乎是第一个通过使用智能手机中标准的振动设备来解决这个问题的研究项目。来自新加坡南洋理工大学的两位研究人员的论文的标题为摇动假象：通过主动探测实时深度伪造视频。方法SFake被设计为一个基于云的服务，一个本地应用程序将数据发送到远程API服务进行处理，并将结果发送回去。然而，其仅450mb的占用空间和优化方法论使其能够完全在设备上处理深度伪造检测，在网络连接可能导致发送的图像过度压缩的情况下，影响诊断过程。在这种方式下运行“全部本地”意味着该系统将直接访问用户的摄像头视频流，而不会受到编解码器干扰，这种干扰通常与视频会议相关联。平均分析时间需要四秒钟的视频样本，在此期间，用户被要求保持静止，并在此期间，SFake发送“探测”以在选择性随机间隔内引起摄像机振动，这些间隔系统如DeepFaceLive无法及时响应。(应该再次强调的是，任何攻击者如果没有在训练数据集中包含模糊内容，很可能无法生成一个可以在更有利的情况下生成模糊的模型，而且DeepFaceLive不能简单地将此功能添加到训练在欠培养数据集上的模型中）该系统选择面部的特定区域作为潜在的深度伪造内容区域，排除眼睛和眉毛（因为在该区域的眨眼和其他面部运动不在模糊检测的范围内，也不是理想的指标）。如上所示的概念架构，选择合适且不可预测的振动模式后，确定最佳焦距，并执行面部识别（包括通过 Dlib 组件估计标准的68个面部特征点），SFake从输入面部提取梯度，并专注于这些梯度的选定区域。通过顺序分析短片中的每一帧，直到达到平均或“理想”序列，并忽略其余的，获得了方差序列。这提供了可以用作深度伪造内容概率量化的提取特征，基于训练数据库（稍后会详细介绍）。该系统需要1920×1080像素的图像分辨率，以及至少2x的镜头变焦要求。论文指出，Microsoft Teams、Skype、Zoom和Tencent Meeting都支持此类分辨率（甚至更高的分辨率）。大多数智能手机都有前置和自置摄像头，通常只有一个具有SFake所需的变焦功能；因此，应用程序将需要通信者使用满足这些要求的任一摄像头。目标是将用户面部的正确比例放入系统将分析的视频流中。论文观察到，女性使用移动设备的平均距离为34.7厘米，男性为38.2厘米（如报道在 Journal of Optometry...

'a gorgeous illustration of a robot operating a professional movie camera' - ChatGPT Plus, Sept 2024

2024年9月23日 2024年9月23日

作者 Martin Anderson

为什么生成式视频系统无法制作完整的电影？

作者 Martin Anderson

生成式人工智能视频的出现和进展促使许多观察者预测，机器学习将成为电影业的终结者——单个创作者将能够使用本地或云端的GPU系统在家中制作好莱坞风格的电影。这种情况可能吗？即使可能，它是否即将发生？个体创作者最终能够制作出我们熟悉的电影，具有连贯的角色、叙事连续性和完全的写实主义，这是可能的——也许甚至是不可避免的。然而，有几个根本性的原因说明为什么这不太可能发生在基于潜在扩散模型的视频系统中。这些模型的核心是基于随机噪声的去噪扩散模型，这使得它们不适合重新解释相同的内容两次（即，从不同的角度或通过开发前一帧来维持与前一帧的一致性）。当使用文本提示时，单独或与上传的“种子”图像（多模态输入）一起，来自提示的令牌将从模型的潜在空间中引出语义上合适的内容。然而，由于“随机噪声”因素的影响，它永远不会以相同的方式完成这一过程。这意味着视频中的角色身份将趋于转变，对象和环境将不匹配初始帧。这就是为什么病毒式视频片段经常描绘出非凡的视觉效果和好莱坞级别的输出，但往往是单个镜头或展示系统能力的“展示蒙太奇”，每个镜头都有不同的角色和环境。目前唯一提供叙事一致性的系统是那些生成静态图像的系统，例如NVIDIA的ConsiStory和科学文献中的各种项目，例如TheaterGen、DreamStory和StoryDiffusion。在理论上，可以使用这些系统的更好版本来创建一系列图像到视频的镜头，这些镜头可以连接成一个序列。然而，在当前的技术水平下，这种方法不能产生可信的后续镜头；况且，我们已经偏离了“作者”的梦想，增加了复杂性。可以使用低秩适应（LoRA）模型，特别是针对角色、物体或环境进行训练的模型，来保持更好的跨镜头的一致性。然而，如果一个角色想要出现在新的服装中，通常需要训练一个新的LoRA来体现这个角色穿着这种服装（尽管子概念，如“红色连衣裙”，可以与适当的图像一起训练到单独的LoRA中，但它们并不总是容易使用）。这增加了相当大的复杂性，即使对于电影的开场景，一个人从床上起来，穿上睡衣，打哈欠，往窗外看，去浴室刷牙。这样的一个场景，包含大约4-8个镜头，可以在传统的电影制作过程中在一个上午内完成；然而，在当前的生成式人工智能技术水平下，它可能需要几周的工作，多个训练的LoRA（或其他辅助系统），以及大量的后期处理。另外，可以使用视频到视频的方法，普通或CGI镜头可以通过文本提示转换为替代解释。例如，Runway提供了这样的一个系统。然而，这里有两个问题：首先，你已经需要创建核心镜头，这意味着你已经在制作电影两次，即使你使用的是合成系统，如Unreal的MetaHuman。如果你创建CGI模型并使用它们进行视频到图像转换，它们在镜头之间的一致性是不可靠的。这就是因为视频扩散模型没有“大局观”——它们创建一个新帧基于前一帧，并在某些情况下考虑附近的未来帧；但是，它们无法“十步想”和“十步回忆”。其次，扩散模型仍然难以在镜头之间保持一致的外观，即使你包含多个LoRA用于角色、环境和灯光风格。1：你无法获得准确的后续镜头叙事不一致是最大的障碍。事实上，目前没有任何视频生成系统能够制作出真正准确的“后续镜头”。2：你无法轻松编辑一个镜头如果你使用传统的CGI方法来描绘一个角色走在街上，并且你决定改变镜头的某个方面，你可以调整模型并重新渲染它。如果是真人拍摄，你可以重新设置并重新拍摄，带着适当的改变。然而，如果你使用生成式人工智能视频生成一个你喜欢的镜头，但你想改变它的一个方面，你只能通过30-40年来开发的耗时的后期制作方法来实现：CGI、rotoscoping、建模和matting——所有这些都是劳动密集和昂贵的、耗时的过程。3：你无法依赖物理定律传统的CGI方法提供了各种算法物理模型，可以模拟流体动力学、气体运动、逆运动学（人体运动的精确模拟）、布料动力学、爆炸和其他现实世界现象。然而，基于扩散的方法，如我们所见，有短期记忆，并且有有限的运动先验（训练数据集中包含的动作示例）可供参考。在OpenAI的Sora生成系统的早期版本中，公司承认Sora在这方面存在局限性（尽管这段文字已经被删除）。在后期制作中解决问题除了上述问题之外，单用户生成式视频还存在其他缺陷，例如难以描绘快速运动和获得输出视频的时间一致性。此外，创建特定的面部表演和唇部同步对于生成式视频来说几乎是偶然的。在这些情况下，使用辅助系统，如LivePortrait和AnimateDiff，变得非常流行，因为它们允许将面部表情和唇部同步转移到现有的生成输出中。结论所有这些并不表明单个用户可以生成连贯且写实的、好莱坞风格的、全长电影，具有真实的对话、唇部同步、表演、环境和连续性。此外，所描述的障碍，至少对于基于扩散的生成式视频模型来说，并不一定可以在短期内解决，尽管论坛评论和媒体报道表明可以。所描述的限制似乎是该架构的固有属性。在人工智能合成研究中，像在所有科学研究中一样，杰出的想法周期性地以其潜力令人惊艳，只是进一步的研究揭示了它们的根本局限性。在生成/合成领域，这已经发生在生成对抗网络（GANs）和神经辐射场（NeRF）身上，它们最终被证明很难转化为高性能的商业系统，尽管经过多年的学术研究。这些技术现在主要作为其他架构中的辅助组件出现。就像电影制片厂可能希望在合法授权的电影目录上进行训练可以消除特效艺术家和VFX团队一样，人工智能实际上正在增加工作岗位。无论基于扩散的视频系统是否真的可以转化为具有叙事一致性和写实主义的电影生成器，还是这只是另一个炼金术的追求，都将在接下来的12个月内变得明显。可能我们需要一个完全新的方法；或者可能Gaussian Splatting（GSplat），它在20世纪90年代初期开发并最近在图像合成领域流行起来，代表了基于扩散的视频生成的潜在替代方案。由于GSplat需要34年才能流行，因此也可能老的竞争者，如NeRF和GANs——甚至潜在扩散模型——还没有到达它们的巅峰。尽管Kaiber的AI Storyboard功能提供了这种功能，但我所见到的结果并非生产质量。马丁·安德森是metaphysic.ai的前科学研究内容负责人。首次发布于2024年9月23日。

2024年8月21日 2024年8月21日

作者 Janine Heinrichs

FlexClip 评论：一个有趣的初学者友好型 AI 视频生成器

作者 Janine Heinrichs

作为一个拥有媒体传播学位的人，我熟悉专业的视频编辑软件，如 Premiere Pro。我知道这些工具的复杂性，尤其是对于初学者或没有太多时间的人来说，可能会让人感到不知所措。我最近发现了 FlexClip，这是一款适合初学者视频编辑器的游戏规则改变者。它具有用户友好的界面，成千上万的可定制模板和强大的 AI 工具。FlexClip 将视频创作变成了一种流畅和愉快的过程！在这篇 FlexClip 评论中，我将讨论它是什么，谁适合使用它，以及其关键功能。然后，我将展示如何使用 FlexClip 的 AI 视频生成器创建一个视频，介绍我对 Vidyo.ai 的评论：https://youtu.be/arWPEN47jq0我将通过比较 FlexClip 与其前三名替代品（Pictory、Synthesys 和 Deepbrain AI）来完成这篇文章。目标是到文章结束时，您将知道 FlexClip 是否适合您！结论FlexClip 是一个多功能的在线视频创作工具，具有直观的界面，6,000 多个可定制模板和无限的库存库。它提供了令人印象深刻的 AI...

2024年8月9日 2024年8月9日

作者 Dr. Tehseen Zia

生成性 AI 游乐场：开创下一代智能解决方案

作者 Dr. Tehseen Zia

生成性 AI 已经因其能够创造出模仿人类创造力的内容而获得了显著的关注。尽管其具有广泛的潜力，应用范围从生成文本和图像到创作音乐和编写代码，但与这些快速发展的技术进行交互仍然令人望而生畏。生成性 AI 模型的复杂性和所需的技术专业知识通常会为个人和小型企业创造障碍，这些个人和企业本可以从中受益。为了解决这个挑战，生成性 AI 游乐场正在作为民主化访问这些技术的重要工具而出现。什么是生成性 AI 游乐场生成性 AI 游乐场是直观的平台，促进与生成模型的交互。它们使用户能够在不需要广泛的技术知识的情况下实验和改进他们的想法。这些环境为开发人员、研究人员和创意人员提供了一个可访问的空间来探索 AI 能力，支持诸如快速原型设计、实验和定制等活动。这些游乐场的主要目标是民主化访问高级 AI 技术，使用户更容易创新和实验。一些领先的生成性 AI 游乐场包括： Hugging Face：Hugging Face 是一个领先的生成性 AI 游乐场，特别以其自然语言处理（NLP）能力而闻名。它提供了一个全面预训练的 AI 模型、数据集和工具库，使创建和部署 AI...

2024年7月31日 2024年7月31日

作者 Janine Heinrichs

Pipio 评论：最准确的 AI 头像唇部同步

作者 Janine Heinrichs

创建高质量、引人入胜的视频在营销中起着至关重要的作用。然而，大多数人没有时间或预算投资传统的视频制作方法。视频制作涉及很多方面，从聘请演员到选择拍摄地点，投资设备，到管理复杂的编辑过程。幸运的是，市场上有一些优秀的 AI 视频生成器解决了传统视频制作和编辑的问题。其中一个我最近发现的优秀 AI 视频生成器是 Pipio。最初吸引我尝试 Pipio 的是其精确的唇部同步技术。唇部同步不准确是当前 AI 视频生成器中头像的最大缺陷。然而，Pipio 在这一方面做得非常好，使得 AI 头像看起来非常逼真。在这篇 Pipio 评论中，我将讨论什么是 Pipio、谁是其目标用户以及其关键功能。然后，我将展示如何使用 Pipio 创建视频，使用其用户友好的界面。我将以介绍 Pipio 的最佳替代品来结束这篇文章。我希望通过阅读这篇文章，您将清楚地了解 Pipio 是否是适合您的 AI...

2024年7月8日 2024年7月8日

作者 Janine Heinrichs

Elai 評測：一款適用於企業的 AI 視頻生成器

作者 Janine Heinrichs

如果您厭倦了傳統的 AI 視頻生成器，準備被一款叫做 Elai 的工具驚艷吧。它不僅是一款 AI 視頻生成器，還是專門為企業學習設計的。Elai 可以將企業學習視頻提升到一個新的水平，具有 80 多個引人入勝的 AI 虛擬主持人和可嵌入的交互功能。使用 Elai，您可以輕鬆地將測驗、按鈕、分支路徑和產品鏈接嵌入到您的視頻中，而無需演員或昂貴的後期製作工作！這種交互性是我從未在其他 AI 視頻生成器中見過的。無論您是企業培訓師，旨在使您的課程更加吸引人，還是企業，旨在簡化您的視頻營銷工作，Elai 的獨特功能都承諾能夠革新您的視頻內容創作過程。在這篇 Elai 評測中，我將討論它是什麼、誰適合使用它，以及其功能，以便您能夠全面了解 Elai 的能力。從那裡，我將展示如何使用 Elai 在幾分鐘內從簡單的文字提示生成一個可自定義的視頻!我將以我嘗試過的最佳 Elai 替代品結束這篇文章，以便您知道哪一個 AI 視頻生成器最適合您。到最後，您將了解為什麼...

2024年6月29日 2024年6月29日

作者 Janine Heinrichs

Fliki 評測：使用 AI 提升您的內容創作

作者 Janine Heinrichs

作為一名內容創作者，我親身經歷了不斷滿足對新鮮、高品質內容需求的困難。平衡質量和數量是一個永無止境的挑戰，尤其是在多個平台上維護強大的存在感，例如 TikTok、Instagram 和 YouTube。很容易感到不知所措，創造力和時間都被拉到了極限。但是，如果有一種方法可以簡化這個過程，讓您在不犧牲質量的情況下大量生產專業、引人入勝的內容呢？我最近發現了 Fliki，一款全面的 AI 視頻生成器，它對我來說是一個遊戲規則的改變，也可能對您有所幫助。使用 Fliki，您可以將您的想法、博客文章、演示文稿、推文和產品鏈接轉換為精致、值得分享的視頻，只需幾個點擊即可。以下是我使用 Fliki 創建的一個視頻，展示了健康飲食和運動的益處，我只需幾分鐘即可創建，無需編輯：https://youtube.com/shorts/oka9ExX6Oog?feature=share相當令人印象深刻，对吧？Fliki 對於生成一個引人入勝的視頻做得非常出色。我喜歡 Fliki 為我添加了媒體、字幕、語音、音樂和音效。所有我需要做的就是進行一些調整，下載並發布它！在這篇 Fliki 評測中，我將討論它是什麼以及它最適合誰，並簡要介紹其功能。然後，我將展示我創建上述視頻的步驟，以便您可以了解使用 Fliki 創建引人入勝的內容是多麼容易。我將以關於如何充分利用 Fliki、撰寫有效腳本以及我嘗試過的最佳 Fliki 替代品的提示來結束這篇文章。到最後，您將了解 Fliki 能夠做什麼以及它是否是適合您的 AI 視頻生成器！關鍵亮點將想法、博客文章、PPT 演示文稿、推文和產品...

2024年3月6日 2024年3月6日

作者 Janine Heinrichs

BasedLabs 評測：能否瞬間將圖像轉換為視頻？

作者 Janine Heinrichs

作為創作者，我們一直在尋找簡化工作流程而不影響內容質量的方法。我最近發現了 BasedLabs，一款強大的 AI 視頻生成器，具有 AI 圖片編輯工具，可以在幾秒鐘內將靜態圖像轉換為動態視頻。其工具非常適合創建引人入勝的內容，展示產品，創建有趣的表情包等。我想更深入地了解這個平台可以做什麼，所以我撰寫了這篇 BasedLabs 評測！我將從解釋 BaseLabs 是什麼、誰是其最佳用戶、以及其關鍵功能開始。然後，我將展示如何使用 BaseLabs 生成圖像並將其轉換為視頻，以便您也可以做到：https://www.youtube.com/shorts/WTAGcqZvhlE我將以最佳的 BaseLabs 替代方案結束這篇文章，以便您知道是否是適合您的平台！讓我們看看。評測結果BasedLabs AI 提供了一套全面的 AI 工具，簡化內容創建流程並提供高質量的結果。生成和將照片轉換為動態視頻非常容易，只需幾秒鐘！雖然其易用性適合所有技能水平的用戶，但某些技術方面可以簡化以提供更流暢的用戶體驗。儘管存在這些小缺點，BasedLabs 對於想要簡化圖片編輯和 AI 視頻創建流程的創作者來說是一個寶貴的資源！優點和缺點 25 個免費積分，試用 BaseLab 的...

2023年11月22日 2023年11月22日

作者 Janine Heinrichs

Synthesia 評測：2024 年最佳 AI 視頻生成器？

作者 Janine Heinrichs

創建視頻不是只要按下錄製按鈕然後希望得到最好的結果。它涉及腳本編寫、聘請和培訓演員、投資攝影棚和設備等。換句話說，視頻創建需要時間、金錢和精力。如果有一種更容易的方式可以更快、更容易地生成高質量的視頻呢？介紹 Synthesia：一款將文字轉換為視頻的 AI 視頻創建工具。但它是否真正是排名第一的 AI 視頻生成器？在這篇 Synthesia 評測中，我們將深入探討 Synthesia 是什麼、它的最佳用途以及所有的功能。然後，我將分享我使用該軟件的個人經驗，並展示如何使用 AI 腳本助手在幾分鐘內創建視頻：https://youtu.be/VJuljulCLnY我所做的就是給它一個主題和我的目標受眾。然後，它立即生成了一個完全可定制的視頻，包括腳本、場景和 AI 演員。最後，我將解釋軟件的優點、缺點和我測試的三個最佳替代方案。到最後，你將知道如何使用 Synthesia 和它是否是最佳的 AI 視頻生成器！讓我們看看。什麼是 Synthesia？Synthesia 由 Victor Riparbelli 和一群來自著名機構的 AI 研究人員和企業家於 2017...

2023年11月17日 2023年11月17日

作者 Janine Heinrichs

Colossyan Creator 评论：最好的 AI 视频生成器？

作者 Janine Heinrichs

在今天的数字时代，视频内容已经成为任何成功的营销策略、在线学习平台或社交媒体存在的必备条件。然而，创建专业质量的视频可能会耗时且昂贵，需要视频编辑经验和专门的软件。但不用担心：Colossyan Creator 来帮忙！在这篇 Colossyan Creator 评论中，我们将探讨 Colossyan Creator 是什么及其功能，以揭示它的能力。我甚至会向您展示如何找到这些功能，以便您可以立即使用它们。从那里，我将为您提供一步一步的教程，介绍如何使用 Colossyan 创建 AI 视频：https://www.youtube.com/watch?v=ByjTMQkrlTI最后，我将总结我对该软件的喜欢和不喜欢之处，谁是最适合使用它的人，以及我尝试过的前三名 Colossyan Creator 替代品。根据我的经验，我可以自信地说，在我测试过的各种 AI 视频生成器中，它是最好的选择之一，凭借其出色的真实性、专业性和整体质量。但我会让您决定是否适合您！什么是 Colossyan Creator？Colossyan Creator 是一个 AI 视频生成器，简化了内容创作者、营销人员和小企业主的视频创建过程。使用它，您可以轻松创建高质量的视频，而无需任何技术视频编辑经验。AI 视频平台利用机器学习...