5.1 数据集的获取与描述_联邦学习实战-QQ阅读女频幻言网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

5.1 数据集的获取与描述

本节我们使用由威斯康星州临床科学中心开源的乳腺癌肿瘤数据集（链接5-2）来测试横向联邦模型，数据集已经内置在sklearn库中，可以直接加载查看。

执行代码后显示前5行的数据如图5-1所示。可以看到，数据一共由569个样本构成，每一个样本数据一共有31列，其中第1～30列表示30维的特征数据，第31列表示标签数据（用1表示良性肿瘤，0表示恶性肿瘤）。进一步分析，我们会发现数据中只包含了10个属性，但是每一个属性值分别以均值（mean）、标准差（standard error）、最差值（worst）出现了三次，所以总共有30个特征。在这569个样本中，恶性肿瘤样本有212个，良性肿瘤样本有357个。

图5-1 乳腺癌肿瘤数据集示例