![联邦学习实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/730/38209730/b_38209730.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
5.1 数据集的获取与描述
本节我们使用由威斯康星州临床科学中心开源的乳腺癌肿瘤数据集(链接5-2)来测试横向联邦模型,数据集已经内置在sklearn库中,可以直接加载查看。
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_78_1.jpg?sign=1738857413-MktPP3u5NeeR1RGcquwu1EXfrLJec9lq-0-5cc9e03011f84203a36df2f71524eaf9)
执行代码后显示前5行的数据如图5-1所示。可以看到,数据一共由569个样本构成,每一个样本数据一共有31列,其中第1~30列表示30维的特征数据,第31列表示标签数据(用1表示良性肿瘤,0表示恶性肿瘤)。进一步分析,我们会发现数据中只包含了10个属性,但是每一个属性值分别以均值(mean)、标准差(standard error)、最差值(worst)出现了三次,所以总共有30个特征。在这569个样本中,恶性肿瘤样本有212个,良性肿瘤样本有357个。
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_78_2.jpg?sign=1738857413-8CoYfAZIKURdt9q6XNRMHizZUNhKSnrv-0-27c7841425fc5bff696825b6e2d0243b)
图5-1 乳腺癌肿瘤数据集示例