访谈
法比亚娜·克莱门特,YData 的联合创始人和首席数据官 – 采访系列

法比亚娜·克莱门特是 YData 的联合创始人和首席数据官。YData 是一个人工智能初创公司,创建了第一个数据中心开发解决方案,将数据发现、改进和规模结合在一个平台上。
最初是什么吸引你进入人工智能和机器学习领域?
我的背景是应用数学,我有机会学习和了解如何从数据中提取信息,以及如何利用代码来实现这一点。当时,机器学习还不是那么流行,但它确实激发了我对这个领域的热情。
你能分享 YData 的创立故事吗?
作为一名数据科学家,我曾在初创公司和企业中工作过,我经历过很多困难 – 有时,数据访问被安全或隐私的借口所阻止,其他时候,数据访问很容易,但数据质量远远不够好,以至于无法构建基于人工智能的解决方案。知道这些困难在大多数组织中都很常见,这激发了我们创立公司的想法,目标是帮助这些团队克服这些障碍,通过改进数据来加速人工智能开发。
你能为我们的读者描述什么是合成数据吗?
合成数据是指任何不是在现实世界中生成的数据,因此,任何人工创建的数据。有方法可以生成合成数据 – 从基于规则的策略到使用机器或深度学习模型来学习这些“规则”。在 YData,我们采用并专门从事基于深度学习的策略来生成新的数据,这些数据保持了来自真实世界事件的行为,而不需要担心隐私问题。
合成数据为什么这么重要?
随着组织越来越意识到数据对于提升业务的重要性,合成数据的重要性和作用将会被更好地理解。收集真实数据不仅耗时且昂贵,有时甚至是不可能的。要构建人工智能应用程序,数据是一个硬性要求 – 这就是合成数据的作用。能够生成未见过的场景或简单地解锁数据访问的能力,是在一个世界中进化的关键,在这个世界中,像安德鲁·恩格(Andrew Ng)这样的先驱者认为,成为数据中心是人工智能采用的关键。
在自动驾驶汽车或其他机械自动化活动中,我们已经可以看到合成数据的重要性,所以我认为这只是合成数据在所有行业垂直领域中被广泛理解的自然结果。
YData 如何生成合成数据?
YData 主要利用深度生成模型来学习原始数据中变量之间的统计属性和相关性。这使得模型能够生成一个具有相同业务价值的统计相关数据集,而不会允许追踪到原始记录。
YData 正在推进这项技术,并是 合成数据社区 的背后公司 – 一个致力于传播和帮助任何想要学习和使用这项技术的数据科学专家团体。
YData 平台如何帮助发现和解锁新的数据源?
YData 的平台包括内置连接器,可以连接到任何类型的数据库、数据仓库或数据湖,允许用户轻松访问相关元数据并了解现有数据是否有助于回答他们手头的业务问题 – 而无需查看实际记录。
你能分享一些关于合成数据开源社区的细节吗?
合成数据仍处于早期阶段,因此,如何生成合成数据、其优点或局限性仍然不为更广泛的受众所知。因此,在 YData,我们决定采取更教育性的方法,创建合成数据社区 – 除了是一个交流想法或从合成数据领域专家那里获取帮助的地方外,它也是数据科学家和其他技术人员可以开始他们的合成数据之旅的地方,使用文献中一些最有趣的算法。
此外,我们还提供了对数据质量的看法,因此数据科学家可以在合成或改进数据之前先了解他们正在处理的数据。我们致力于帮助数据团队变得更加数据中心。
YData最近宣布了270万美元的资金以加速其国际扩张。你能分享一些关于这对公司未来和扩张策略的细节吗?
YData 一开始就是一个国际公司 – 我们知道这项技术需要早期采用者,而这些采用者通常在最发达的国家。因此,我们的第一个客户已经在葡萄牙以外的整个欧洲,我们现在也在北美建立存在感。这些资金将使我们能够加强我们在这两个大陆的存在,不仅是在商业上,还要扩大团队:我们是一个完全分布式的团队,这使我们能够在任何地方聘用最好的人才。
关于 YData,还有其他事情你想分享吗?
YData 正在推动数据中心人工智能的边界,创造一个新类别:数据准备运营 – 虽然这个名字不太好听,但这是大多数公司在数据科学开发中面临的痛点。数据质量趋势继续增长,在数据管道和数据可观察性之后,数据科学团队的数据质量仍处于初期阶段,YData 正在数据准备方面涌现为思想领袖。
感谢这次精彩的采访,希望了解更多的读者可以访问 YData。












