2020 年 3 月,由国家三部委联合指导、厦门市政府主办、百度承办的中国人工智能大赛·语言与知识技术竞赛(个人赛)即将开赛。竞赛围绕「机器阅读理解」主题展开,设立了面向观点型问题的机器阅读理解任务,参赛者在这一竞赛中,则需要设计出回答段落摘要所包含是非观点极性的模型。
竞赛背景
长期以来,人工智能被认为是引领未来的战略性技术,同时,对推动国家和城市的经济、加速未来发展至关重要。
而机器阅读理解作为自然语言处理界进步最快的技术方向之一,也是自然语言处理和人工智能领域的重要前沿课题,对于提升机器智能水平、使机器具有持续知识获取能力具有重要价值。
而且,由于该技术应用范围非常广泛,近年来也受到学术界和工业界的广泛关注。
本届中国人工智能大赛·语言与知识技术竞赛正是围绕了「机器阅读理解」主题展开,旨在为研究者提供开放的学术交流平台,提升阅读理解的研究水平,推动语言理解和人工智能领域技术和应用的发展。
同时,于自然语言处理方面的人才与团队而言,这是一个大展身手的优质平台;对于有志于落户厦门,并在此领域深耕的科技人才,这也未免不是值得尝试的机会。
竞赛简介及任务
面向观点型问题的机器阅读理解,通常源于真实的应用场景,例如:针对用户输入的观点型问题,智能搜索问答系统检索相关候选文档,然后给出最终的是非观点。
本次中国人工智能大赛·语言与知识技术竞赛的任务,也聚焦于预测答案段落摘要中所表述的是非观点极性。
面向观点型问题的机器阅读理解技术在智能搜索问答中的应用示例
简而言之,即:要求参赛者根据搜索场景中用户输入的观点型问题,从数据集中抽取出能够回答用户问题的答案段落摘要,并给出摘要中包含的是非观点,最终完成多个观点型问题的机器阅读理解任务。
赛项与奖金
该竞赛共分为个人赛和团体赛两类(报名需二选一)。团体赛面向优质企业和专业团队公开招募,个人赛面则向个人开发者公开招募。
个人赛报名时间:截至 2020 年 3 月 15 日
团体赛报名时间:持续报名中,截止日期待定
其中团体赛设置选拔赛和邀请赛,选拔赛阶段成绩优异的团体可进入邀请赛。
在个人赛中,赛方提供了 12 万的高额奖金池,一、二、三等奖获奖者分别奖励 5 万元、2 万元、8000 元;优胜奖品为 2000 元京东卡。其中:
一等奖:1 名
二等奖:2 名
三等奖:3 名
优胜奖:4 名
而团体赛获奖队伍竞赛前三名,可获得厦门市政府专项落户、扶持政策和创新创业培训课程等支持,以及百度黄埔学院-首席 ai 架构师培养计划的直通名额。
所有获奖选手均获得中国人工智能大赛组委会颁发的国家级 ai 竞赛证书。
历届证书样例
若竞赛获奖者成功落户厦门,厦门市政府还会额外附上落地奖励、研发补助、研发空间、人才住房等多项扶持。针对人工智能产业顶尖人才和创业团队,厦门市政府还将给予 1000 万元至 1 亿元的项目资助。
除丰厚的奖金之外,竞赛还提供了大量机器阅读理解的数据及 tesla v100 免费 gpu 算力平台,同时提供了专业的培训,以及学术界和产业界专家指导,支持与帮助所有个人参赛者和参赛团队。
测试数据集
本次竞赛提供基于 dureader 的中文是非观点型问题阅读理解数据集。包含 7 万问答对以及人工标注的答案段落摘要和相应的是非观点极性。
dureader 是一个面向真实应用的、开放域的、最大规模的中文问答阅读理解数据集。其优势是数据来源真实:dureader 的问题是百度搜索中用户提出的真实问题,并且答案都经过了人工标注。
本次竞赛还为选手提供样例数据、训练数据集和测试数据集。其中:
样例数据同赛题一起发布,选手通过报名审核后可在竞赛官网下载。
训练数据集将于正式开赛后统一发放,选手可使用赛事主办方提供的训练数据集进行训练,模型所使用的数据和字段不做限制。
测试数据集将分别发放,其中个人赛和团体选拔赛的测试数据集将于评测入口开放前一周发放,邀请赛测试数据集不发放。
关于数据集范围,所有问题均为搜索引擎中按照用户行为分布的观点类的问题,对应的文档为搜索引擎搜索出来的网页。
答案片段摘要则是经过人工标注的回答此问题的答案片段,是非观点极性是此答案片段摘要相对于问题的观点极性。
报名规则
本次竞赛面向全社会开放,不限年龄、身份、相关领域的个人、高等院校、科研机构、企业单位、初创团队等人员均可报名参赛。具体内容包括:
个人赛仅限 1 名开发者报名且无法重复参加团体赛。
团体赛参赛队伍人数不超过 3 人(线下自由组队),允许跨单位自由组队,每人只能参加一支队伍。
个人参赛者及参赛团队报名所填报的资料、信息应该是准确、真实、有效、合法、完整的,如若发现有虚假和隐瞒,将被取消参赛资格。