维基百科现已提供 JSON 格式内容快照数据集:机器可读,减少主站爬虫流量

04月18日 12:02
该数据集可用于AI/ML建模、基准测试、对齐、微调和探索性分析。其在设计时考虑了机器学习工作流程,简化了机器访问内容的流程,使用者无需对维基百科主站原始内容进行抓取和或解析。这也意味着AI爬虫可直接利用现成的数据集,减少了机器人在主站爬取带来的流量开支,有利于维基百科的可持续运营。相关阅读:《广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,亚汇网所有文章均包含本声明。
免责声明:本文章仅代表作者个人观点,不代表亚汇网立场,亚汇网仅提供信息展示平台。

更多行情分析及广告投放合作加微信: hollowandy

相关新闻

下载APP,查看更多新闻


请扫码或添加微信: Hollowandy