利用 Milvus 和 AWS 加速 HumanSignal 数据采集和标注

HumanSignal
  • 超低时延

    语义检索

  • 可扩展

    向量存储

  • 极速、稳定

    图片索引

  • 用户友好

    简化流程

HumanSignal 简介

HumanSignal(前身为 Heartex)通过其旗舰开源数据标注平台 Label Studio,为机器学习和人工智能的发展提供强大支持。HumanSignal 的团队由数据科学家和工程师组成,自 2019 年以来,HumanSignal 一直专注于解决由低质量训练数据带来的模型准确性问题。Label Studio 的设计初衷是让组织内的领域专家能够高效地注释和管理训练数据。该平台利用用户友好的界面、可适应性和协作流程,以增强内部数据标注能力,从而显著提高模型的精度。作为 GitHub 上最受欢迎的数据标注平台,Label Studio 已经支持 20 多万用户标注了超过 2.5 亿个数据项,成为Bombora、Geberit、Outreach、Trivago、Wyze、Zendesk等领先企业生产机器学习和人工智能策略中至关重要的工具。

用户痛点:构建新的数据湖导航和标注方式

在数据标注中的一个主要挑战是选择正确的数据进行标注。AI 项目拥有大量的非结构化数据,这些数据构成了庞大的数据湖,而在数据湖中筛选出最相关和最重要的数据,用于构建训练集或基准真实数据集,是一项具有挑战性的任务。传统方法,如基本启发式规则和 SQL 查询,耗时且需要手动操作,往往无法准确找到对高质量训练集最有影响力的数据项。

因此,许多数据科学团队只能采用较小、不太具有代表性的数据样本,这会降低 ML/AI 模型的准确性和效果。此外,这样的限制会减缓模型开发过程,阻碍进展,使得无法在竞争激烈、快速发展的技术环境中推出先进的 AI 解决方案。

正因为面临这些挑战,HumanSignal 开始着手开发一个重要的新功能,即 Label Studio Enterprise 的数据发现功能,旨在帮助解决此类问题。

解决方案:通过 Milvus 和 AWS 增强数据发现能力

在开发这一全新的数据发现功能的过程中,HumanSignal 选择了 Zilliz 的开源产品 Milvus,原因在于它独特的能力,可以支持多种索引算法,这是其他向量数据库供应商普遍不具备的功能。这种灵活性使得 HumanSignal 能够显著增强其数据发现工具中的语义搜索功能,通过使用不同的索引算法进行过渡——从初期的 Hierarchical Navigable Small World(HNSW)以提高效率,到 DiskANN 以优化内存使用,最后采用 IVF_SQ8 以提高性能。

在使用 Amazon EKS 将 Milvus 部署在 AWS 上后,相关性能进一步得到提升。HumanSignal 借助 Milvus 的 Helm Chart,将强大的向量数据库无缝集成到云基础设施中,利用 AWS 的可扩展性和可靠性来满足其大规模数据处理需求。这种战略组合简化了部署过程,并确保数据发现工具能够高效地管理和处理大量数据,以满足 Label Studio 用户的需求。

结果:简化数据标注和增强模型开发

将 Milvus 集成到 HumanSignal 的数据发现功能对于实现超低延迟的语义搜索操作至关重要。这一改进使得 HumanSignal 能够为用户提供一个简化的新流程,用于识别需要进行标注的相关数据子集,使得整个过程比传统的搜索方法快得多。此外,Milvus 改进了图像索引的速度和可靠性,这是一个之前充满挑战的关键领域。这一进步意味着数据发现的用户现在可以享受更快、更可靠的图像处理,显著提高了他们训练集的质量和准确性,有益于 ML/AI 模型的性能。 Zilliz 的 Milvus 和 AWS 技术堆栈对于 HumanSignal 至关重要,为向量数据存储提供了可扩展和强大的平台。它解决了他们在构建数据发现功能时面临的即时挑战,并使 HumanSignal 能够在人工智能和机器学习领域继续创新和发展,彰显了将人工智能和云计算的前沿技术相结合的变革力量。

相关资源