维基媒体基金会旗下Wikimedia Enterprise近日在Kaggle平台发布了测试版维基百科结构化内容数据集,提供JSON格式的英语和法语版本。该数据集专为AI/ML建模、基准测试及微调设计,简化了机器学习工作流程,使用者无需再从维基百科主站抓取或解析原始内容。
这一举措不仅为开发者提供了现成的训练资源,还显著降低了AI爬虫对主站的访问压力,减少了流量开支。维基媒体基金会此前曾指出,网络爬虫频繁抓取数据给运营带来沉重负担,此次发布的结构化数据集有望缓解这一问题,推动平台可持续运营。
维基媒体基金会旗下Wikimedia Enterprise近日在Kaggle平台发布了测试版维基百科结构化内容数据集,提供JSON格式的英语和法语版本。该数据集专为AI/ML建模、基准测试及微调设计,简化了机器学习工作流程,使用者无需再从维基百科主站抓取或解析原始内容。
这一举措不仅为开发者提供了现成的训练资源,还显著降低了AI爬虫对主站的访问压力,减少了流量开支。维基媒体基金会此前曾指出,网络爬虫频繁抓取数据给运营带来沉重负担,此次发布的结构化数据集有望缓解这一问题,推动平台可持续运营。