任务描述

指令驱动的自适应知识图谱构建(InstructionKGC)是一种以用户指令为基础,实时更新和优化知识图谱结构的方法。这种方法的核心目标是根据用户需求调整知识图谱的表示,从而实现更准确、更高效的信息检索和推理,以满足开放环境下高效知识图谱构建的需求。在指令驱动的自适应知识图谱构建过程中,系统(如大模型)首先接收用户指令,识别其意图和需求。然后,根据指令内容,系统会基于输入的文本抽取相应的实体关系三元组以构建知识图谱。如果有知识缺失的情况,系统会根据用户指令中的补全需求实现对知识图谱的补全。这种方法的优点在于它可以实现知识图谱的定制计划构建。通过自适应调整,知识图谱能够更好地满足不同用户在不同场景下的需求。此外,指令驱动的自适应知识图谱构建方法还可以提高知识图谱的可扩展性,使其能够在面对新的数据和任务时进行有效适应。

任务目标

根据用户输入的指令抽取相应类型的实体和关系,构建知识图谱。其中10%指令包含了知识图谱补全,即任务需要模型在抽取三元组的同时对缺失三元组进行补全。

以下是一个知识图谱构建任务例子,输入一段文本input和instruction(包括想要抽取的关系类型),以“(头实体,关系,尾实体)”的形式输出input中包含的所有关系三元组output。下列指令仅供参考,选手可以使用不同的大模型并设计最优指令以得到最好的抽取结果。

instruction="已知候选的关系列表:['父母','配偶'],请你根据关系列表,从以下输入中抽取出可能存在的头实体(Subject)与尾实体(Object),并给出对应的关系三元组。请按照(Subject,Relation,Object)的格式回答。"

input="2008年6月23日,刘德华与朱丽倩在美国拉斯维加斯注册结婚。2012年5月9日,朱丽倩在香港养和医院产下女儿刘向蕙。刘向蕙出生后,少数看过刘向蕙面貌的圈内人士称,女儿的耳朵像刘德华,长得眉清目秀。"

output="(刘德华,配偶,朱丽倩),(刘向蕙,父母,刘德华),(刘向蕙,父母,朱丽倩)"

知识图谱补齐的含义是,在输入miss_input(input中缺失了一段文字,input仍然通顺)和instruction的情况下,模型仍然能够补齐缺失的三元组,输出output。下面是一个例子:

instruction="已知候选的关系列表:['父母','配偶'],请你根据关系列表,从以下输入中抽取出可能存在的头实体(Subject)与尾实体(Object),并给出对应的关系三元组。请按照(Subject,Relation,Object)的格式回答。"

miss_input="2012年5月9日,朱丽倩在香港养和医院产下女儿刘向蕙。刘向蕙出生后,少数看过刘向蕙面貌的圈内人士称,女儿的耳朵像刘德华,长得眉清目秀。"

output="(刘德华,配偶,朱丽倩),(刘向蕙,父母,刘德华),(刘向蕙,父母,朱丽倩)"

虽然miss_input中不包含“2008年6月23日,刘德华与朱丽倩在美国拉斯维加斯注册结婚。”这段文字,但是模型能够补齐缺失的三元组,(刘德华,配偶,朱丽倩),(刘向蕙,父母,刘德华)。

数据集介绍

初赛训练集&测试集

训练集

在初赛训练集和验证集发布阶段,我们会发布5000条左右的知识图谱数据作为训练集。这5000条数据是使用维基数据对中文维基百科进行远程监督标注的弱监督数据,所以可能会存在一些错误。训练集包括一个train.json文件,可以在天池平台下载获取。

train.json:每行是一个json串,具体字段内容如表所示

字段说明id样本唯一标识符cate文本主题input模型输入文本(需要抽取其中涉及的所有关系三元组)instruction模型进行抽取任务的指令output模型期望输出,以(头实体,关系,尾实体)形式组成的输出文本kgtext中涉及的知识图谱(由(头实体,关系,尾实体)三元组的格式组成)

文本主题为以下12种类型之一:

1.人物(人、虚拟的人、名称等)

2.地理地区(城市、国家、河流、山脉、大洲、湖泊等)

3.事件(战争、活动、赛事等)

4.组织(企业、政府机构、机构、家族、队伍等)

5.生物(动物、植物、微生物、种等)

6.人造物件(材料、食物、设备等)

7.化合物

8.医学(健康问题、生理状况等)

9.运输(物流、航空、铁路系统、船运等)

10.建筑(建筑物、设施等)

11.天文对象(天体等)

12.作品(电影、数据、音乐等)

下面是一个json串示例:

{

"id": 0,

"cate: "运输",

"instruction": "已知候选的关系列表, ['创建时间', '所在行政领土', '车站等级', '线路', '邮政编码'], 请你根据关系列表,从以下输入中抽取出可能存在的头实体(Subject)与尾实体(Object),并给出对应的关系三元组。请按照(Subject,Relation,Object)的格式回答。",

"input": "沙河集站是一个京沪线上的铁路车站,位于安徽省滁州市南谯区沙河镇龙亭社区,建于1909年,目前为四等站,邮政编码为239060。目前客运:办理旅客乘降;行李、包裹托运;货运:办理整车货物发到;危险货物仅办理整车农药、化肥发到。",

"output": "(沙河集站,线路,京沪线),(沙河集站,所在行政领土,龙亭社区),(龙亭社区,所在行政领土,沙河镇),(沙河镇,所在行政领土,南谯区),(南谯区,所在行政领土,滁州市),(滁州市,所在行政领土,安徽省),(沙河集站,车站等级,四等站),(沙河集站,创建时间,1909年),(沙河集站,邮政编码,239060),(京沪线,所在行政领土,龙亭社区)",

"kg": [

[

"沙河集站",

"线路",

"京沪线"

],

[

"沙河集站",

"所在行政领土",

"龙亭社区"

],

[

"龙亭社区",

"所在行政领土",

"沙河镇"

],

[

"沙河镇",

"所在行政领土",

"南谯区"

],

[

"南谯区",

"所在行政领土",

"滁州市"

],

[

"滁州市",

"所在行政领土",

"安徽省"

],

[

"沙河集站",

"车站等级",

"四等站"

],

[

"沙河集站",

"创建时间",

"1909年"

],

[

"沙河集站",

"邮政编码",

"239060"

],

[

"京沪线",

"所在行政领土",

"龙亭社区"

]

]

}

初赛测试集

在初赛阶段,我们会分A榜、B榜两阶段(每阶段发布1000条),共发布2000条左右(含200条需补全)的测试集。初赛A、B榜测试集分别由两个json文件valid1.json、valid2.json构成,每行是一个json串,格式和train.json一致,仅缺失kg、output_text字段。注意:第二个1000条数据将在初赛的最后一周发布。

{

"id": 1,

"cate": "人物",

"instruction": "已知候选的关系列表:['职业', '父母', '国籍'], 请你根据关系列表,从以下输入中抽取出可能存在的(Object),并给出对应的关系三元组。请按照(Subject,Relation,Object)的格式回答。",

"input": "雷夫大叔冰岛人,原出生地不详,真实身份为传说中的挪威海盗红魔艾瑞克之子。"

}

复赛测试集

{

"id": 2,

"cate": "作品",

"instruction": "已知候选的关系列表:['杀青时间','取景地点','导演','上映时间','改编自','产地','开机时间','主演'],请你根据关系列表,从以下输入中抽取出可能存在的头实体(Subject)与尾实体(Object),并给出对应的关系三元组。请按照(Subject,Relation,Object)的格式回答",

"input": "欢乐元帅又名(春光灿烂之欢乐元帅)是2011年中国开拍的电视剧,翻拍自2000年电视剧《春光灿烂猪八戒》。以古装、神话、作题材,由福纳影视公司投资,著名作家范小天导演执导,古巨基、蔡卓妍、钟欣潼、郭晋安、吴卓羲、恬妞等人主演。此剧取景于江苏昆山福纳影视基地,于2011年4月28日开机拍摄。全剧共分四个单元,该剧共有50多位中港台明星组成的强大演员阵容;预计7月杀青。2012年1月全国电视台上映。"

}

在复赛阶段我们会发布1000条测试集(含100需补全) ,选手可以下载测试数据集。测试数据集由一个test.json文件构成,每行是一个json串,格式和valid.json一致。复赛结果提交方式和初赛保持一致,具体参见任务提交说明章节。

外部数据

可以使用第三方数据,但是禁止人工标注数据。

评测指标

本次任务采用F1值(F1-measure, F1)和ROUGE-N分数的加权和来评估模型进行知识图谱构建和补全的效果。精确率为在被所有预测为正的样本中实际为正样本的概率,召回率为在实际为正的样本中被预测为正样本的概率,F1值计算公式如下:

ROUGE-N将模型生成的output_text和glod output_text分别转换成一系列单独的单词,通过计算N-gram 的重叠程度来衡量它们之间的相似性,这里的N我们取2。所以最终score为:

score = 0.5 * F1 + 0.5 * ROUGE-N

注意,F1值计算的是预测的kg和gold kg之间的F1值,当预测的[pred_head, pred_rel, pred_tail]与gold [head, rel, tail]完全相同时才算预测正确。

基线模型

本任务可以基于预训练语言模型微调如使用mT5或大模型GPT-3,ChatGPT,GPT-4等。方案不限于: 1)小模型微调(如T5,BART,GPT-2等); 2)使用大模型(如设计最优指令提示,设计最优Demonstration演示实例); 3)多模型协同(如基于大模型进行数据生成和增强强化小模型、大模型调度多个小模型以强化大模型自身)等。 鼓励选手设计全新的思路完成本任务。

我们提供基线代码位于:

基于指令的大模型工具EasyInstructGitHub - zjunlp/EasyInstruct: An Easy-to-use Framework to Instruct Large Language Models.mT5DeepKE/example/triple/mt5 at main · zjunlp/DeepKE · GitHubChatGPTDeepKE/example/llm at main · zjunlp/DeepKE · GitHub

任务提交说明

比赛期间,参赛队伍通过天池平台下载数据,本地调试算法,在线提交结果,结果文件命名为"参赛队名称_result.json",以utf-8编码格式保存。文件每行是一个json串,包含"id","cate","input","output"、"kg"字段。

例如:

{

"id":3,

"cate": "运输",

"input": "沙河集站是一个京沪线上的铁路车站,位于安徽省滁州市南谯区沙河镇龙亭社区,建于1909年,目前为四等站,邮政编码为239060。目前客运:办理旅客乘降;行李、包裹托运;货运:办理整车货物发到;危险货物仅办理整车农药、化肥发到。",

"output: "[(沙河集站,线路,京沪线),(沙河集站,所在行政领土,龙亭社区),(龙亭社区,所在行政领土,沙河镇),(沙河镇,所在行政领土,南谯区),(南谯区,所在行政领土,滁州市),(滁州市,所在行政领土,安徽省),(沙河集站,车站等级,四等站),(沙河集站,创建时间,1909年),(沙河集站,邮政编码*,239060),(京沪线,所在行政领土,龙亭社区)]",

"kg": [

[

"沙河集站",

"线路",

"京沪线"

],

[

"沙河集站",

"所在行政领土",

"龙亭社区"

],

[

"龙亭社区",

"所在行政领土",

"沙河镇"

],

[

"沙河镇",

"所在行政领土",

"南谯区"

],

[

"南谯区",

"所在行政领土",

"滁州市"

],

[

"滁州市",

"所在行政领土",

"安徽省"

],

[

"沙河集站",

"车站等级",

"四等站"

],

[

"沙河集站",

"创建时间",

"1909年"

],

[

"沙河集站",

"邮政编码",

"239060"

],

[

"京沪线",

"所在行政领土",

"龙亭社区"

]

]

}

模型不允许在测试集上进行训练,只能在训练集上训练。最终我们会对代码进行审核。

最终提交文件要求

复赛结束后,组委将会联系获奖参赛队伍提交代码和模型:1)入口运行文件;2)代码及说明;3)方法描述文档。以上三个文件需在复赛结束后3天内发送至邮箱:aliopenkg@service.alibaba.com。邮件的标题为:"天池-CCKS2023任务1-最终提交文件-参赛队名称"。代码及其文档需打包成一个文件(tar,zip,gzip,rar等均可),用"code.指令KGC.参赛队伍名称"命名,要求提交所有的程序代码及相关的配置说明,确保程序能够正确运行,且所得结果与复赛结果相符。方法描述文档用"指令KGC.参赛队伍名称.pdf"命名,包含算法描述及参数设置,需用pdf格式存储,页数不超过10页。

 

CCKS2023 开放环境下的知识图谱构建与补全评测任务一:指令驱动的自适应知识图谱构建__赛题与数据_天池大赛-阿里云天池

CCKS2023 开放环境下的知识图谱构建与补全评测任务一 - 知乎 

参考文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: