# 数据统计

# 数据规模

  • 概念数量(CIDs)4,135,287
  • 术语数量(SIDs)7,379,681
  • 三元组(实验中)数量(RIDs)7,339,584

# 语义类型分布

语义类型名称 语义类型ID 概念数量 占比(%)
化学物质或药物 2 2141680 50.13
疾病 6 434197 10.16
治疗或预防程序 24 308836 7.23
解剖结构 1 198322 4.64
医疗器械 3 154911 3.63
症状、体征、临床所见 10 123477 2.89
肿瘤病变 11 120562 2.82
微生物 17 119017 2.79
诊断程序 20 113385 2.65
生理 19 88978 2.08
实验室程序 22 88707 2.08
病理 5 86627 2.03
真核生物 18 86230 2.02
解剖异常 7 76626 1.79
精神或行为障碍 8 68191 1.6
受伤或中毒 9 51225 1.2
研究行为或技术 23 9556 0.22
研究仪器 4 1531 0.04

# 三元组(实验中)分布

关系类型名称 关系类型ID 三元组数量 占比(%)
是一种 1 3,212,107 43.76
包含 2 3,212,107 43.76
是其中部分 3 146,904 2.0
包含部分 4 146,904 2.0
被发现于 9 105,713 1.44
发现 10 105,713 1.44
参与生物过程 34 60,490 0.82
生物过程涉及 36 60,490 0.82
表达 13 44,509 0.61
被表达基因/蛋白 14 44,509 0.61
含有活性成分 42 44,302 0.6
活性成分应用 39 44,302 0.6
治疗药物或疗法 6 24,000 0.33
可治疗 5 24,000 0.33
基因产物 15 22,982 0.31
编码基因 16 22,982 0.31
可能引起症状 11 7,442 0.1
引起该症状病因 12 7,442 0.1
显著药物相互作用 17 2,686 0.04

# 语言分布

语言 术语数量 占比(%)
英文 5,195,276 70.40
中文 2,184,405 29.60