主办方:
电子科技大学计算机科学与工程学院(网络空间安全学院)、成都一片森林科技有限公司
赞助商:
OPPO广东移动通信有限公司
自然场景中的文本(红框所示)
参赛队伍需将运行环境、模型与代码按标准格式打包为可运行的文件,如为手机 app,则打包为可安装文件,并通过邮件上传。组织方会将账户通过邮件分发各队伍,每支队伍每周最多提交两次。
非英语文本或者非法字符视为无效文本,检测结果视为无效,不计入评价。
视检测窗口与标定窗口 IoU>0.5 且识别文本与标定文本完全匹配(忽略大小写)为有效识别结果。
采用 F1-score 为第一评价标准,F1-score 的计算方式如下:
注:指标计算方法参考 K. Wang, B. Babenko, and S. Belongie, “End-to-end scene text recognition”, in Computer Vision (ICCV), 2011 IEEE International Conference on (pp. 1457-1464), IEEE, November 2011. 评价方式参考以及 ICDAR2015 Incidental Scene Text Challenge, Task 4.4: End to End, http://rrc.cvc.uab.es/?ch=4&com=tasks
在上一标准相同的情况下,采用平均精度 AP 作为第二评价标准,AP 计算方式如下:
注:指标计算方法参考 M. Everingham, S. A. Eslami, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman, (2014). The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1), 98-136. 评价方式参考 ICDAR2017 Robust Reading Challenge on COCO-Text, Task 3: End-to-End Recognition http://rrc.cvc.uab.es/?ch=5&com=tasks
训练集:组织方不提供统一的训练集,参赛者可以使用任意训练数据,如 COCO-Text,也可以使用自己构建的数据库。
测试集:组织方提供以OPPO手机采集的图像和人工标注的图像作为 groundtruth 的测试集。组织方的评审专家会对参赛者提交算法进行评审。
体感游戏基于人体行为识别技术,通过人体关键节点的组合和追踪来识别人的运动和行为。通过对人体姿态的定位于识别,可以为游戏,短视频等提供新的交互方式。人体姿态的主要获得途径有两个:一个是通过深度摄像机获得深度信息,如 3D 结构光和 TOF(Time of Flight) 相机;另一个是直接使用 RGB 图像估计人体关键节点。人体关键点检测任务侧重于为 2D 图像视频流提供持续人体关键点输出,从而实现人体姿态估计。
输入:RGB 人像图片
输出:人像图像的关键点,17 个点的坐标以及置信度
{0-nose 1-Leye 2-Reye 3-Lear 4Rear 5-Lsho 6-Rsho 7-Lelb 8-Relb 9-Lwri 10-Rwri 11-Lhip 12-Rhip 13-Lkne 14-Rkne 15-Lank 16-Rank}
参赛队伍需将运行环境、模型与代码按标准格式打包为可运行的文件,如为手机 app,则打包为可安装文件,并通过有邮件上传。组织方会将账户通过邮件分发各队伍,每支队伍每周最多提交两次。
主要评估指标为平均精度均值 mAP(mean average precision):
AP(平均精度)计算公式如下:
其中,Object Keypoint Similarity (OKS) 为对象关键点相似度:
性标志,v = 0 表示未标记,v = 1 表示标记但不可见,v = 2 表示标记且可见。对于每个对象,关键点检测器都需要输出关键点位置和对象级别的置信度,对OKS 公式中,
表示每个关键点相应的实际真值和检测到的关键点之间的 Euclidean 距离,S, 为通过一个非标准化的高斯将标准差传递给标准偏差,s 为对象尺度, 为一个控制衰减的按键控制常数, 表示实际真值的可见性标记。
(注:对于图片中的每个对象,真实标定形式为 [,,,…,,,],其中 x,y 是关键点位置。v 为可见象的预测关键点应该具有与实际真值相同的形式。)
[{
“image_id”: int,
“category_id”: int,
“keypoints”: [x1,y1,v1,…,xk,yk,vk],
“score”: float,
}]
由于预测结果不存在不可见,vi 统一设置 vi = 1
参考文档: COCO 竞赛官方网站 http://cocodataset.org/#keypoints-eval的 1.2. Object Keypoint Similarity 部分。
训练集:组织方不提供统一的训练集,参赛者可以使用任意训练数据,比如 COCO(keypoints-2018),也可以使用自己构建的数据库。
测试集:组织方提供以 OPPO 手机采集的图像和人工标注的图像作为 groundtruth 的测试集。组织方的评审专家会对参赛者提交算法进行评审。
随着手机硬件平台和人工智能技术的飞速发展,目前的智能手机基本都可以实现后置双摄像头和前置单摄像头对人像拍照时的背景虚化。在虚化的方法上,后置通过双摄像头来计算景深从而实现前景人像的分割,进而对背景虚化;而前置则直接对单帧图像进行人像分割的方式来虚化背景。这两种方式来带的虚化效果是显著的,但是也存在很多弊端,无论哪种分割方式,都难以实现对人像发丝的精细分割,这导致了最终人像头部边缘的虚化效果不是很理想。随着用户对手机相机拍照功能要求的逐年升级,为了达到单反相机级别的背景虚化效果,需要能够实现人像的精细分割,尤其是发丝边缘。这样不仅可以实现更加精确的背景虚化,同时也为人像照片换背景提供了技术支持,而这些可以进一步增强用户的使用体验。
输入:RGB 人像图片
输出:分割为人像和背景的图片
参赛队伍需将运行环境、模型与代码按标准格式打包为可运行的文件,如为手机 app,则打包为可安装文件,并通过有邮件上传。组织方会将账户通过邮件分发各队伍,每支队伍每周最多提交两次。
本题目分为基于 groundtruth 的评价和算法运行时间。
基于 groundtruth 的评价。在测试集中,会给定多张人像图像及其对应的分割好的图像作为 groundtruth。基于参赛者生成的分割图像和 groundtruth 的比对,利用 F1-score 和 Mean Intersection Over Union (mIOU) 作为评价指标。
为 groundtruth,A 为其人像区域;为算法估计的分割,B 为其人像区域,则
最终的 F1-score,mIOU 结果为 m 个测试图片的得分均值。
算法的运行时间包括所有预处理和分割时间,是指从输入图片开始到输出图片结束的用时。参赛作品以 app 的形式,则其运行时间默认少于非 app 的作品。
F1,IOU 两个分值归一化后的均分,作为算法准确率的分值。如果两个算法分值相差 3% 以内,即,则用时较少者获胜。
训练集:组织方不提供统一的训练集,参赛者可以使用任意训练数据,比如 COCO,也可以使用自己构建的数据库。
测试集:组织方提供以 OPPO 手机采集的图像和人工标注的分割作为 groundtruth 的测试集。组织方的评审专家会对参赛者提交算法进行评审。
创意赛为自选课题,内容要求与 AI、图像或通信相关,主要以基于 OPPO 手机的 App 形式完成,也可以基于无人机、机器人、虚拟现实等多种平台进行创意设计。
参赛队伍需将运行环境、模型与代码按标准格式打包为可安装文件 app,并发送至邮件(TOP@iconos.tech)。组织方会将账户通过邮件分发各队伍,每支队伍每周最多提交两次。其他参赛作品形式,如无人机、机器人等,需要提交作品文档和产品演示 demo。
主导评审团:
电子科大宋井宽、清华大学鲁继文、浙江大学李玺、上海交通大学涂仕奎