FAIR提出大规模细粒度词汇级标记数据集LVIS,有效识别长尾分布


我将在开业前3天分享。

记得要注意它从: FAIR编译: T.R

关注关键科学问题的数据继续推动目标检测领域的技术进步,将目标检测的性能从简单图像扩展到复杂场景,从边界标记到语义分割掩模。最近,facebook AI Institute的研究人员发布了一个大规模的词汇实例分割(LVIS),其中包含164k图像,并且对于超过1000种类型的对象具有大约200万个高质量。实例拆分注释。由于数据集包含具有自然长尾属性的对象,因此LVIS数据集将有助于图像分割领域中深度学习的进一步发展。

目标检测是计算机视觉领域的一项重要任务。它具有很强的适用性,广泛的应用和快速的发展。近年来,数据集,基准算法和检测能力得到了极大的改进,并且已经衍生出一系列新功能,包括图像。分割,3D表示和3D对象检测。

目前,对目标检测算法的严格评估仅针对少量分类(例如,20/80级)进行,因此当真实环境中存在大型物体或者罕见时应该怎么做对象出现?这为科学家提出了新的问题。

图像中目标类别的长尾效应是不可避免的。虽然更多的数据集可以有效地找到以前看不见或罕见的类别,但从小样本中有效学习仍然是机器学习和计算机视觉的重要领域。开放性问题也使该领域成为科学和工业界最活跃的研究领域。但要在这个领域进行深入研究,高质量的数据集和基准是至关重要的!

FAIR的研究人员为这一研究方向设计并收集了一个名为LVIS的数据集,用于大规模词汇分割。该数据集包含164k图像,1000多种数据类型和约200万个注释。值得一提的是,该数据集的收集过程没有预定的类别(之前没有类别),首先收集图像,然后根据图像中目标的自然分布对其进行标记。大量的手动注释取代了机器的自动注释,因此可以有效地识别图像中自然存在的长尾分布。

COCO和ADE20K数据集

研究人员设计了一个有效的众包标签流程,以捕获具有高质量注释的大规模数据集。对于目标检测和实例分割,注释的质量对于算法是重要的。像COCO这样的相对粗糙的标签限制了算法在掩模预测质量方面的改进。与COCO和ADE20K相比,LVIS数据的注释掩模具有更大的重叠区域和更好的边缘连续性。

在构建数据集的过程中,研究人员使用了优先评估的设计原则。这意味着研究人员首先确定了评估算法性能的方法,并基于此方法收集和构建数据集以满足评估方法的需要。研究人员提出的基准测试使用了类似coco的实例分割和AP计算方法。

1)在大类别的情况下,如果目标有多个标签,如何公平地评估探测器的性能?

2)如何设计合适的标签流程以减少超过一千种164k图像的工作量?

解决这些问题的关键是构建联合数据集:从多个小数据集共同构建大规模,完整的数据集,每个数据集类似于仅关注单个类别的传统数据集。在标记过程中,每个小数据集将关注特定类别,并详尽地标记图表中特定类别中的所有目标。

对于完整的大型数据集,组成子数据集之间可能存在重叠,并且单个目标可能具有多个标记。此外,由于在每个小数据集中执行一类对象的详尽标记,因此不需要在完整的联合数据集中穷举标记所有类别。该方法大大减少了标签的工作量。

更重要的是,该算法不知道测试评估中每个图像的标记类,它将平等地处理所有标记类别,这将对联合数据集内的每个数据集提供公平的评估。

LVIS数据集例如是分段任务。该任务的主要目标是在给定已知固定类别的分类的情况下处理之前未见过的图像,并输出图像中出现的每个图像。一个实例及其相应的分类和置信度分数。掩模的平均精度mAP可以通过算法生成的一系列输出来计算。

但在评估算法时,研究人员将面临一系列问题。随着分类数量的增加,实例的标签将不可避免地重叠和混淆:部分视觉概念的重合,父子分类关系的定义以及同义词的识别。如果没有有效的方法来处理这些问题,评估方法将是非常不公平的。

例如,许多玩具不是鹿。大多数鹿不是玩具,但玩具鹿也是玩具和鹿。此时,目标检测算法很可能得到错误的标记。再例如,汽车的标记是车辆,如果算法输入汽车,则判断为错误。

出现这些问题主要是因为GT注释缺少一个或多个描述目标的标签。如果算法预测了一个标签但没有在GT中标记它,它将得到错误的惩罚。但是对于这个新的数据集,每个对象的标签都被耗尽并且被正确标记,并且可以解决上述问题。

数据集标注过程

数据集标注过程分为六个主要步骤,包括目标定点,穷举标记,实例分割和验证,穷举标记验证,否定案例标签等。

目标定点中的标记需要标记图像中不同类别实例的输入。该阶段将被迭代,以便呼叫者可以从图像中连续地提取自然场景中的目标的长尾信息。在第一阶段标记的每个类别之后,将标记一个完整的实例标记以查找每个类别中包含的所有实例。在图片中,您可以看到标记已标记更多书籍。

在第三和第四阶段中,前一标记的示例被单独分段和验证,并重复直到精度超过99%。在第五阶段,将执行穷举标签验证测试以检查是否所有实例都被划分和标记,如果是,则过滤掉缺失标签实例的类别以用于补充标记。最后一步的否定标签将用于验证类别子类的标签是否未出现在图像中。有关注释的更多详细信息,请参阅本文的第三部分。

探索数据集

我们来探索数据集。在下图中,我们可以看到每张图像都在每张图像中都有很好的标记。标记了小的,模糊的和难以辨认的目标实例。例如,第一行的最后一列中的牌照标签和第三行的最后一列中的相机标签尽管很小,但不会明确地绘制蒙版。这些目标对于图像的抽象和理解很重要。有更多有趣的数据集和详细的分类信息,请参阅数据集网站:

参考

过来扫我吧

- 结束 -

该公司是一家新的风险投资公司,专注于发现,加速和投资技术驱动的创业公司,涵盖创新服务,门到门技术社区和Mentor风险投资的大门。该创始团队成立于2015年底,由微软风险投资公司在中国的原始团队建立。它为微软孵化并创新了126家创新技术创业公司。

专注于创新服务,将创新技术应用于实际应用,激活和提供新的业务价值,并为行业领先的公司和技术创新型初创公司提供服务。

专注于技术社区,帮助技术创新的初创公司提供生产,学习,研究和创新领域的核心技术专家的技术共享和学习内容,使创新成为核心竞争力。

Gateway Venture Capital Foundation致力于通过技术创新投资于激活业务场景和实现商业价值的初创企业,专注于技术领域,包括机器智能,物联网,自然人机交互和企业计算。在过去三年中,通用风险投资基金已投资了数十家高增长潜力技术初创企业,包括数量学校,马龙科技,海塞尔科技,宽带技术,尚书科技,鼎科科技等。

如果您是技术领域的初创企业,您不仅希望获得投资,还希望获得一系列持续且有价值的投资后服务。欢迎您向我发送或推荐项目“门”:

Gatekeeper Venture Capital

让创新得到认可!

收集报告投诉

记得要注意0x251从: FAIR编译器: T.R。

关注关键科学问题的数据不断推动目标检测领域的技术进步,将目标检测的性能从简单图像扩展到复杂场景,从边界注释到语义分割掩模。 Facebook AI Institute的研究人员最近发布了一个大规模词汇表实例分割(LVIS)数据集,其中包含164k图像,并为超过1,000个对象注释了大约200万个高质量实例。 LVIS数据集将促进图像分割领域深入学习的进一步发展,因为数据集中包含的自然图像中的对象分布自然具有长尾属性。

目标检测是计算机视觉领域的一项重要任务。它具有很强的适用性,广泛的应用和快速的发展。近年来,数据集,基准算法和检测能力得到了极大的改进,并且已经衍生出一系列新功能,包括图像。分割,3D表示和3D对象检测。

目前,对目标检测算法的严格评估仅针对少量分类(例如,20/80级)进行,因此当真实环境中存在大型物体或者罕见时应该怎么做对象出现?这为科学家提出了新的问题。

图像中目标类别的长尾效应是不可避免的。虽然更多的数据集可以有效地找到以前看不见或罕见的类别,但从小样本中有效学习仍然是机器学习和计算机视觉的重要领域。开放性问题也使该领域成为科学和工业界最活跃的研究领域。但要在这个领域进行深入研究,高质量的数据集和基准是至关重要的!

FAIR的研究人员为这一研究方向设计并收集了一个名为LVIS的数据集,用于大规模词汇分割。该数据集包含164k图像,1000多种数据类型和约200万个注释。值得一提的是,该数据集的收集过程没有预定的类别(之前没有类别),首先收集图像,然后根据图像中目标的自然分布对其进行标记。大量的手动注释取代了机器的自动注释,因此可以有效地识别图像中自然存在的长尾分布。

COCO和ADE20K数据集

研究人员设计了一个有效的众包标签流程,以捕获具有高质量注释的大规模数据集。对于目标检测和实例分割,注释的质量对于算法是重要的。像COCO这样的相对粗糙的标签限制了算法在掩模预测质量方面的改进。与COCO和ADE20K相比,LVIS数据的注释掩模具有更大的重叠区域和更好的边缘连续性。

在构建数据集的过程中,研究人员使用了优先评估的设计原则。这意味着研究人员首先确定了评估算法性能的方法,并基于此方法收集和构建数据集以满足评估方法的需要。研究人员提出的基准测试使用了类似coco的实例分割和AP计算方法。

1)在大类别的情况下,如果目标有多个标签,如何公平地评估探测器的性能?

2)如何设计合适的标签流程以减少超过一千种164k图像的工作量?

解决这些问题的关键是构建联合数据集:从多个小数据集共同构建大规模,完整的数据集,每个数据集类似于仅关注单个类别的传统数据集。在标记过程中,每个小数据集将关注特定类别,并详尽地标记图表中特定类别中的所有目标。

对于完整的大型数据集,组成子数据集之间可能存在重叠,并且单个目标可能具有多个标记。此外,由于在每个小数据集中执行一类对象的详尽标记,因此不需要在完整的联合数据集中穷举标记所有类别。该方法大大减少了标签的工作量。

更重要的是,该算法不知道测试评估中每个图像的标记类,它将平等地处理所有标记类别,这将对联合数据集内的每个数据集提供公平的评估。

LVIS数据集例如是分段任务。该任务的主要目标是在给定已知固定类别的分类的情况下处理之前未见过的图像,并输出图像中出现的每个图像。一个实例及其相应的分类和置信度分数。掩模的平均精度mAP可以通过算法生成的一系列输出来计算。

但在评估算法时,研究人员将面临一系列问题。随着分类数量的增加,实例的标签将不可避免地重叠和混淆:部分视觉概念的重合,父子分类关系的定义以及同义词的识别。如果没有有效的方法来处理这些问题,评估方法将是非常不公平的。

例如,许多玩具不是鹿。大多数鹿不是玩具,但玩具鹿也是玩具和鹿。此时,目标检测算法很可能得到错误的标记。再例如,汽车的标记是车辆,如果算法输入汽车,则判断为错误。

出现这些问题主要是因为GT注释缺少一个或多个描述目标的标签。如果算法预测了一个标签但没有在GT中标记它,它将得到错误的惩罚。但是对于这个新的数据集,每个对象的标签都被耗尽并且被正确标记,并且可以解决上述问题。

数据集标注过程

数据集标注过程分为六个主要步骤,包括目标定点,穷举标记,实例分割和验证,穷举标记验证,否定案例标签等。

目标定点中的标记需要标记图像中不同类别实例的输入。该阶段将被迭代,以便呼叫者可以从图像中连续地提取自然场景中的目标的长尾信息。在第一阶段标记的每个类别之后,将标记一个完整的实例标记以查找每个类别中包含的所有实例。在图片中,您可以看到标记已标记更多书籍。

在第三和第四阶段中,前一标记的示例被单独分段和验证,并重复直到精度超过99%。在第五阶段,将执行穷举标签验证测试以检查是否所有实例都被划分和标记,如果是,则过滤掉缺失标签实例的类别以用于补充标记。最后一步的否定标签将用于验证类别子类的标签是否未出现在图像中。有关注释的更多详细信息,请参阅本文的第三部分。

探索数据集

我们来探索数据集。在下图中,我们可以看到每张图像都在每张图像中都有很好的标记。标记了小的,模糊的和难以辨认的目标实例。例如,第一行的最后一列中的牌照标签和第三行的最后一列中的相机标签尽管很小,但不会明确地绘制蒙版。这些目标对于图像的抽象和理解很重要。有更多有趣的数据集和详细的分类信息,请参阅数据集网站:

参考

过来扫我吧

- 结束 -

该公司是一家新的风险投资公司,专注于发现,加速和投资技术驱动的创业公司,涵盖创新服务,门到门技术社区和Mentor风险投资的大门。该创始团队成立于2015年底,由微软风险投资公司在中国的原始团队建立。它为微软孵化并创新了126家创新技术创业公司。

专注于创新服务,将创新技术应用于实际应用,激活和提供新的业务价值,并为行业领先的公司和技术创新型初创公司提供服务。

专注于技术社区,帮助技术创新的初创公司提供生产,学习,研究和创新领域的核心技术专家的技术共享和学习内容,使创新成为核心竞争力。

专注于风险投资基金,投资技术创业公司,激活业务场景,实现初创企业的商业价值,专注于技术领域,包括机器智能,物联网,自然人机交互和企业计算。在过去三年中,Mentor Venture Capital投资了数十家高增长技术企业,包括Quantitative,Codelong Technology,Hesai Technology,Quantum Technology,Shanji Technology和Diyinga Technology。公司。

如果您是技术领域的初创企业,不仅希望获得投资,还希望获得一系列连续且有价值的投资后服务,欢迎向我发送或推荐项目“门”:

风险投资

让创新得到认可!