合成数据：有望打破人工智能模型训练瓶颈——2022年度全球十大突破性技术解读（三）

人工智能的好处主要集中在数据资源丰富的领域，而“合成数据”有望填补这项领域空白。

2021年，尼日利亚数据科学公司的研究人员注意到，旨在训练计算机视觉算法的工程师，可以选用大量以西方服装为特色的数据集，但没有非洲服装的数据集。于是，该团队通过人工智能算法人为生成由非洲时尚服装的图像组成的数据，来解决这一不平衡问题。这种通过算法人为合成出的符合真实世界情况的数据，具有与真实数据相似的统计学特征，且在数据饥渴的机器学习领域的应用越来越普遍。在真实数据稀缺或过于敏感的领域，如医疗记录或个人财务数据，这些“合成数据”可用于训练人工智能模型。

实际上，合成数据的想法并不新鲜，例如，无人驾驶汽车已经在虚拟街道上进行了许多训练。2021年，合成数据技术已经变得很普遍，许多初创公司和大学在提供这种服务，例如Datagen和SynthesisAI公司可根据需要提供数字人脸，其他公司可为金融和保险业提供合成数据。

2021年，麻省理工学院发布了名为“SyntheticDataVault”的开源工具，支持便捷生成不同领域、不同模态的数据。《麻省理工科技评论》（MITTechnologyReview）关注到了数据合成方向的技术动态，并鉴于数据对智能算法的源头作用，将其列入2022“全球十大突破性技术”。

专家点评

程学旗（中国科学院计算技术研究所研究员、博士生导师）

陈薇（中国科学院计算技术研究所研究员，博士生导师）

人工智能技术已经在百姓生活和社会管理中广泛应用，例如日常购物娱乐和网络社交中的智能算法推荐、生活工作中的智能穿戴和智能算法助手，以及帮助规划调度城市高效运转的城市大脑。

人工智能模型的效果很大程度上取决于数据质量，“无效输入”往往会导致“无效输出”，为了获取高质量的数据，需要对数据进行预处理，包括处理缺失数据和异常数据等。为了提高模型训练的效果，还需要邀请领域专家人工为每一份数据附上标签，这就大大提高了数据的获取成本并制约了数据集的规模。除去获取成本高昂以外，特定领域的数据集还受限于用户隐私，极难采集。以医学影像领域为例，患者的医学影像，如X光片被医院保管，医院无权泄露，这样就可以很好地保障患者的隐私，但同时增添了该领域研究者获取数据的难度。因此如何高效、廉价并在不侵犯隐私的情况下获取大量数据，是人工智能领域的关键问题之一。

为了实现这一目标，科研人员提出了“合成数据”的方法，即通过算法人为生成出符合真实世界情况的数据集。合成得到的数据集可以用于人工智能模型训练，且具有获取成本低、质量高、避免侵犯隐私等优点，有望解决目前模型训练中数据缺乏这一瓶颈问题。

2021年，麻省理工学院发布了名为“SyntheticDataVault”的开源工具，支持便捷生成不同领域、不同模态的数据。国际资本市场也提早预期到了合成数据技术的潜在价值，催生出了一批初创公司，成功的商业模式正在表明合成数据这项技术并非只能用于实验室场景，在实际场景中也能够发挥重要作用。

合成数据领域的技术发展趋势迅猛，正在被期待对人工智能产生“再次点火”的作用，我们仍然需要重点关注合成数据的评估、合成数据存在的“非自然数据”、合成数据的“隐式隐私”泄露问题。

科研人员逐渐意识到，高质量的合成数据集不仅可以作为真实数据集的补充，更可作为训练人工智能模型的主要数据来源，但在全面应用合成数据集之前需要充分研究合成数据集与真实数据集的差异，从而避免应用合成数据集带来的偏差。

目前，合成数据技术大多是基于统计机器学习方法，由于经典统计学只关注数据中蕴含的相关性而忽视了因果性，因此有可能生成不合逻辑的数据，例如合成图像中可能会出现具有异常背景的图像。

（文图来自国家自然科学基金委员会《中国科学基金》2022年第3期MITTechnologyReview2022年“全球十大突破性技术”解读，内容有删节）