# 数据统计

# 数据规模

  • 概念数量(CIDs)22,104,559
  • 术语数量(SIDs)46,024,274
  • 三元组(实验中)数量(RIDs)99,849,860

# 语义类型分布

语义类型名称 语义类型ID 概念数量 占比(%)
化学物质或药物 2 7,113,297 31.94
基因或基因组 36 2,078,154 9.33
治疗或预防程序 24 819,693 3.68
疾病或综合症 6 806,888 3.62
解剖结构 1 730,989 3.28
生理 19 619,983 2.78
细胞 34 498,326 2.24
器械 28 447,538 2.01
微生物 17 341,748 1.53
实验室程序 22 312,685 1.40
动物 31 322,415 1.45
肿瘤病变 11 255,816 1.15
诊断程序 20 226,272 1.02
植物 29 207,378 0.93
症状、体征或临床发现 10 156,230 0.70
真核生物 18 159,814 0.72
食物 37 104,409 0.47
细胞成分 35 91,356 0.41
受伤或中毒 9 88,403 0.40
细胞或分子功能障碍 39 73,136 0.33
解剖异常 7 71,814 0.32
精神或行为障碍 8 60,867 0.27
个体行为 38 36,562 0.16
身体物质 33 35,271 0.16
临床属性 32 6,651 0.03
人类 30 2,044 0.01
未知 999 6,602,700 29.65

# 三元组(实验中)分布

关系类型名称 关系类型ID 三元组数量 占比(%)
是一种 79 49,396,861 49.47
是一种(反向) 87 49,396,861 49.47
有相互作用 78 363,494 0.36
可治疗(反向) 83 139,299 0.14
可治疗 86 139,299 0.14
鉴别诊断 76 36,396 0.04
有不良反应 77 26,686 0.03
有不良反应(反向) 80 26,686 0.03
可诊断(反向) 82 68,509 0.07
可诊断 85 68,509 0.07
禁忌用药 75 13,206 0.01
可导致 84 87,027 0.09
可导致(反向) 81 87,027 0.09

# 语言分布

语言 术语数量 占比(%)
英文 35,790,921 77.77
中文 10,233,353 22.23