
本文是我的下一本书的集合,您可以在此处订阅:https://www.danrose.ai/book。
老实说,人工智能中的人造数据可能是我现在认为更多的话题。它具有巨大的潜力 提高隐私,降低偏见并提高模型的准确性 在未来几年中,一次以巨大的技术飞跃。加特纳说,”到2024年,将创建用于开发人工智能和分析的60%的数据。“鉴于今天有许多使用人工智能的人尚未开始采用这项技术,这正在改变游戏。
人造数据是数据,但不是世界的实际注释。它是由人类或算法创建的假数据。它是人工或工业创造的,但目标是相同的真实数据 – 代表人工智能应该起作用的世界。 人工智能模型训练应在世界上准确代表的想法仍然是一种结束方式。最后,建立人工智能的目标是仔细期望提供良好用户体验的模型。
人工数据的类型
根据数据的类型,文本,图像和表格数据的类型,使用不同的方法和使用情况。
人造文本
对于语言和高文本,您可以创建与现实世界中会发现的文本相似的人造文本。这似乎是一个人的学生,但是如果他这样做,则在使用它来训练数据时代表世界的任务已经足够了。
如果对文本进行了分类,我以前已经实现了这种方法。我之所以选择这种方法,是因为数据只能存储三个月,这使得很难跟上特殊的季节性信号。我拿了我为语言模型提供的实际数据并抛光了该模型,以便可以为真实数据产生类似的数据。然后,我们可以在没有个人数据的情况下为每个名称创建无限数据来培训人工智能模型。
合成图像
对于图像,可以将文本模型用于图像,该图像只需通过文本用户声明即可创建人造图像。最受欢迎的版本是NVIDIAS DALL-E2模型,它产生了令人惊讶的逼真图像。您可以免费尝试使用Lugingface上的开源版本,称为Dall-E Mini,在此处免费:https://hugingface.co/space/dalle-mini/dalle- mini。您可以用简短的文字询问模型,例如“平方草莓”,您将从模型中获得九次尝试以产生方形草莓的图像。
由于该模型是开源的,因此您还可以下载表格并将其用于项目。
dall-e mini的图像可能不现实,但它们仍然足以培训人工智能模型。
您可以自己尝试。转到Dall-e Mini,询问模型以制作香蕉和苹果图片。使用诸如“桌子上的香蕉”或“随机背景上的香蕉”之类的句子。对Apple进行同样的操作,以便您每张照片都有30张左右的照片。现在,您可以在教学设备上下载这些图片,以使香蕉标识符与Apple相比。我保证它会起作用。如果您不喜欢它,就可以构建AI以纯粹的人造图像了解事物,我不知道该怎么办。
这里有很多情况。您可以创建您在工业上期望的对象,但在培训数据中没有看到它们。您还可以将常规物体带到随机背景上,以确保涵盖未知场景。这也将提高模型的质量,因为环境变化将少。
合成表格数据
也可以创建工业表格数据。这在医疗保健中很常见,因为医疗保健非常容易受到数据问题的影响。除了各种疾病和药物相互作用的无休止的场景混合物外,还有一个隐私问题。从患者诊断之日起的数据和药物可能是如此独特,以至于可以识别个人。通过创建实际的数据制造版本,数据可以扩展到更好且未知的罕见情况。这使得研究人员和医学专家之间很容易参与。
来自世界的模型
借助世界上的人造模型,我们还可以在启动之前尝试人工智能解决方案,并教会它们在一小部分成本中变得更好。自动驾驶汽车是此目的的理想用途。通过在现实世界附近建立人造模型,可以通过物理和随机场景建立一个人造模型,从而更快,更安全地开发自动驾驶汽车。当今,许多建造自动驾驶汽车的公司在发动机单元中使用紧凑型型号,最初致力于开发电脑游戏。在释放之前,汽车可以试图崩溃和改进,而在虚拟世界中没有人类在数百万次中遇到危险。
对人造数据的好与坏
将人工数据应用于您的解决方案的好处很多。它可以以较低的价格提供更多数据以提高模型的准确性。它可以通过添加稀有功能或贴纸来消除数据以外的夜间解决方案的偏见,而稀有功能或贴纸对于某些组来说是缺陷。它还可以改善个人数据可能是培训数据的一部分的人们的隐私。也可以允许测试已知和未知场景。
但是一切都很好吗?不。人工数据不是银弹。它具有增加偏见或从世界上带来进一步数据的风险。面临的挑战是,很难确定偏见的原因,因为在真实数据处于不足之下的情况下经常使用人工数据,并且根据定义,它挑战了现实的验证。人工数据是许多问题的有前途解决方案,但请仔细使用它。由于很少有人工智能方面的人工数据经验,因此我们不知道等待的许多挑战。
有关更多提示,请在此处订阅该书:https://www.danrose.ai/book。