柯索博士是Voxel51的联合创始人和首席科学官,也是密歇根大学机器人和电气工程与计算机科学教授。作为计算机视觉领域的资深专家,柯索博士致力于视频理解、机器人和数据科学领域的学术研究超过20年。
随着谷歌、微软和Meta等大型科技公司争夺人工智能市场的主导地位,中国的高飞、百度、月光和阿里巴巴等公司也发布了他们的DeepSeek、ERNIE 4.5、Kimi K2和Qwen3大型语言模型,分别作为开源。这一转变从发布受保护的专有GenAI模型到开源模型,被视为中国人工智能行业拥抱开源力量以民主化人工智能开发和促进创新的一种迹象。然而,像许多其他公司一样,高飞、百度和月光虽然声称他们的模型是开源的,但并没有真正分享他们模型的关键组成部分,例如数据集。随着这些大型模型试图成为开发者依赖的商品,真正的开源透明度对于创建无偏见、道德和有益的技术至关重要。所有这些“开源”模型实际上都是“开源权重”,这意味着它们可以被下载和使用,但没有数据就无法以任何有意义的方式检查它们。随着美国公司如Open AI和Meta似乎正在远离开源,百度通过开放其ERNIE 4.5模型的免费使用,鼓励开发者创造更小、更强大的应用程序。这同时也使得百度在人工智能生态系统中获得了竞争优势。同样,DeepSeek、低价的Kimi K2和更新的Qwen3——后者具有挑战闭源模型如Claude Opus 4和GPT-4o-0327的基准——也使得这些公司在人工智能市场中占据了一席之地。这些人工智能公司通过发布开源模型,试图在人工智能市场中占据一席之地。然而,中国人工智能社区并没有真正分享他们的数据或其他关键组成部分,而是要求全球开发者盲目信任他们无法真正理解或调查的模型。通过开源商品人工智能模型占据未来当iPhone在2007年问世时,一些人认为Mac会通过iOS统治智能手机市场。然而,开源参与对于初创公司和全球范围内的创业和经济增长至关重要。安卓,一个在2005年被谷歌收购的初创公司,遵循了这一路径并取得了胜利。通过发布开源软件,安卓邀请学者、开发者,甚至竞争对手合作开发软件。这加速了创新过程,民主化了竞争环境,并最终降低了价格。安卓在第一款iPhone发布的一年后推出,到今年初,安卓已经占据了71.88%的全球市场份额,而iOS仅占27.65%。在智能手机革命中,智能手机已经变得无处不在,即使软件、硬件和用户界面继续改进,行业也已经发展到不再试图革新智能手机的工作方式。如今的创新在于运行在智能手机上的应用程序,而要成为竞争者,智能手机提供商必须维持一个邀请开发者的生态系统。不仅仅是三年前ChatGPT的发布,人工智能行业现在正处于一个类似的十字路口。全球人工智能行业的每一家公司都在努力使他们的模型成为下一个安卓或iOS。通过发布开源的DeepSeek、ERNIE 4.5和Kimi K2模型,中国创新者试图在人工智能市场中占据一席之地。然而,这并不促进真正的开源透明度,这对于创造可信赖的创新至关重要。数据是大多数开源人工智能中缺失的部分人工智能模型比传统软件更复杂,需要共享和创建。完全开源人工智能的呼声不是一个小要求。人工智能系统不仅仅由源代码组成,还包括七个组成部分:源代码、模型参数、数据集、超参数、训练源代码、随机数生成和软件框架。每个部分必须协同工作以产生所需的结果,这意味着开发者需要完全可见性来共享、修改和采用系统,并理解发生了什么。由于可复制性是科学方法的基础,人工智能行业有一个习惯,即使用“开源”一词来指代免费或低价发布的模型,这些模型只提供了谜题的一些部分。例如,百度发布了十个ERNIE 4.5模型,并与模型和参数一起开源了ERNIEKit和FastDeploy部署工具包。这些工具为开发者提供了工业级别的能力,资源高效的训练和推理工作流程,以及多硬件兼容性。换句话说,百度为开发者提供了令人兴奋的工具,以便他们更快地释放创新,这反过来又会鼓励他们选择ERNIE 4.5而不是其他模型。然而,开发者在使用ERNIE 4.5时,被要求盲目信任这个模型,因为百度隐藏了许多关键部分,包括教导和告知其模型的数据集。透明开源人工智能模型的力量虽然人工智能谜题的每个部分对于使模型工作都至关重要,但80%的人工智能项目失败,数据是问题的核心。不准确、不完整和有偏见的数据集会导致模型行为不可预测或不如预期。最近发布的2023年特斯拉Full-Self-Driving(FSD)致命车祸视频暴露了当数据集和模型失败时可能发生的最坏情况。特斯拉Model Y在驶入明亮的夕阳时,部分自动化系统无法理解或对摄像头看到的东西(或没有看到的东西)做出反应。虽然人类驾驶的汽车减速并停下来,但FSD的混乱导致了一名妇女的死亡。这种毁灭性的失败反映了不完整的视觉数据,以及缺乏安全机制来弥补这些盲点。当开发者无法查看他们的数据时,他们无法发现错误并迭代以实现强大的性能。更令人担忧的是,没有数据来驱动模型,他们被迫盲目信任它。然而,当数据集是开源时,人工智能社区已经证明了他们会揭露令人担忧的问题,例如在LAION 5B中发现了超过1000个包含已验证的儿童性虐待材料的URL。由于用于人工智能文本到图像生成模型的数据集是创建Stable Diffusion和Midjourney等应用程序的基础,如果用户开始生成非法的逼真图像,对人工智能行业来说将是毁灭性的。然而,数据集的开放性使得社区能够揭露危险内容并激发解决方案Liaison B。拥抱开源之路随着许多人仍然对这一新兴技术保持警惕,成为下一个安卓或iOS的竞争已经开始——当全球人工智能社区正在建设未来标准时,人工智能系统已经在驾驶汽车和提供医疗评估。建立可信赖的、无偏见的、安全的人工智能比以往任何时候都更加关键。随着中国人工智能社区试图将自己定位为开源创新冠军,通往安全人工智能的道路只存在于真正开源的透明度中,这种透明度已经被几十年的软件创新所证明。将“开源”这个词应用于没有共享关键部分(如数据)的系统并不允许开发者调查、复制和迭代。虽然DeepSeek、ERNIE 4.5、Kimi K2和Qwen3等模型的可用性很诱人,开发者在使用这些模型时,却要以牺牲促进合作和创新透明度为代价来换取便利性。人工智能社区必须做出选择:拥抱真正的开源透明度,还是冒着将明天的关键系统建立在今天的黑盒上的风险。