合成数据能否成为快速训练人工智能(AI)的解决方案?合成数据有优点也有缺点,然而,许多技术专家认为,合成数据是实现机器学习民主化和加快人工智能算法在我们日常生活中测试和应用的关键。

合成数据是人工智能的秘密吗?-黑科技

什么是合成数据?

计算机人为制造数据,而不是从实际情况中测量、收集数据时,它被称为合成数据。数据是匿名的,并基于用户指定的参数创建,以便尽可能接近来自真实场景的数据的属性。创造合成数据的一种方法是,使用现实世界中的数据,但从数据集中去掉诸如姓名、电子邮件、社会安全号码和地址等方面的信息,将数据匿名化,生成一个可以从真实数据中学习的模型,也可以创建一个近似于真实数据属性的数据集。随着技术的进步,合成数据和实际数据之间的差距逐渐缩小。

合成数据在很多情况下都是有用的。与研究科学家如何使用合成材料以低风险完成实验类似,数据科学家可以利用合成数据最大限度地减少时间,降低成本和风险。某些情况下,在没有足够大的数据集可用于为每种可能的场景有效地训练机器学习算法,因此创建数据集可以确保全面的训练。在其他情况下,由于隐私问题,实际数据不能用于测试、培训或质量保证目的,因为数据敏感或者是受到高度监管的领域。

合成数据的优点

庞大的数据集为深层学习机器和人工智能算法提供动力,有望帮助解决非常具有挑战性的问题。谷歌、Facebook、亚马逊等公司因其每天创建的数据量作为其业务的一部分而具有竞争优势。综合数据使各种规模和资源水平的组织都有可能利用由深度数据集提供支持的学习,最终可以实现机器学习的民主化。
大多数情况下,创建合成数据比收集真实世界的数据更高效、更经济。可以根据需求、规范创建,而不是在实际数据发生时等待收集数据。合成数据还可以补充现实世界中的数据,这样即使在真实数据集中没有好的示例,也可以对每个可以想象的变量进行测试,这使组织能够加速系统性能测试和新系统的培训。

合成数据的缺点

创建高质量的合成数据具有挑战性,尤其是在系统复杂的情况下,重要的是创建合成数据的生成模型是优秀的,否则它生成的数据将受到影响。如果合成数据与实际数据集几乎不相同,那么它会影响基于数据进行决策的质量。即使合成数据确实很好,但仍是真实数据集特定属性的副本。模型寻找要复制的趋势,因此可能会忽略一些随机行为。

合成数据的应用

每当涉及隐私问题时,如在金融和医疗领域,或需要大量数据集来训练机器学习算法时,合成数据集可以推动进展。虽然合成数据不是万无一失的,但当真实数据太昂贵而无法收集、或由于隐私问题或不完整而无法访问时,它是增强机器学习算法的重要工具。