海量互联网数据集免费下载,48.9G信息宝藏等你挖掘

探索互联网数据的新维度,一个包含丰富信息的GitHub仓库“internet-dataset”现已开放,涵盖48.9G的域名、网页和反向索引数据,数据量持续增长,包括详细的数据内容和下载链接。

1创意工具数据集互联网信息挖掘GitHub下载
{"p":"

互联网数据集“internet-dataset”在GitHub上等你探索。该数据集由sese-engine:sese.yyj.moe收集,经过半年时间的运行,已经积累了大量有价值的数据。

internet-dataset:互联网数据集 48.9G数据

目前,数据量已达48.9G,内容丰富,包括域名数据、网页数据和反向索引数据等。

  • 域名数据:包含2.7G信息,覆盖6257636个域名和1938617个一级域名。
  • 网页数据:涵盖6.4G信息,包含53294027个网页,其中有标题的网页有48577906个,有介绍的网页有35971682个。
  • 反向索引数据:占39.7G,包含17669628个词,每个词对应1~28000个网页。

数据内容详细,包括域名级别的ip、最后访问时间、访问次数、语种、链接、重定向、https可用、关键词和结构等信息;以及网页级别的标题和介绍。

internet-dataset:互联网数据集 48.9G数据

想要获取这些宝贵的数据,可以通过GitHub Release或OneDrive下载。

"}