# 质量评估
质量评估是对知识图谱可信度的量化,对知识图谱的应用起着重要作用。BIOS参考了现有知识图谱质量评估的相关工作,采用了术语准确性和术语覆盖度两个指标来衡量知识图谱术语的质量水平。为了保证质量评估的可靠性,全部评估数据由医学专家人工标注。质量指标的定义和评估方法请查阅《BIOS质量评估-说明文档》 (opens new window)。
统一医学语言系统(Unified Medical Language System,UMLS)是目前应用最广泛的生物医学知识图谱(Biomedical Knowledge Graph, BioKG)。我们对UMLS 2022AA版本和BIOS V2.2版本采用相同的方法进行对比评估。目前,我们仅评估英文术语的质量水平。
# 1. 英文术语规模比较
可见,BIOS V2.2的英文术语规模要远高于UMLS 2022AA.
# 2. 英文术语准确性比较
可见,BIOS V2.2的英文术语准确性,尤其是Span准确性要明显优于UMLS 2022AA,但UMLS 2022AA的Type准确性更高。
详细评估数据如下:
总评估术语量 | Span准确术语量 | Span&Type均准确术语量 | Span准确但Type为Other或NA术语量 | |
---|---|---|---|---|
UMLS 2022AA | 4304 | 2471 | 2318 | 43 |
BIOS V2.2 | 4632 | 3865 | 2317 | 799 |
根据《BIOS质量评估-说明文档》中公式计算可得:
Term(EN) SpanAcc | Term(EN) TypeAcc | Term(EN) Acc | |
---|---|---|---|
UMLS 2022AA | 0.574 | 0.955 | 0.548 |
BIOS V2.2 | 0.834 | 0.756 | 0.632 |
# 3. 英文术语覆盖度比较
说明:我们从PubMed医学文献、MIMIC-III电子病历和Medscape网站随机抽取了约2万个句子用于评估英文术语覆盖度,由医学专家对句子中的生物医学术语进行标注。受限于标注进度,截止BIOS V2.2发布时,我们共验收了约7千个句子,并基于这部分数据计算了英文术语覆盖度。
由图可见,BIOS V2.2的英文术语的覆盖度要明显优于UMLS 2022AA.
# 数据开源
我们公开部分医学专家术语标注数据,以供大家参考使用。