搜索引擎使用复杂的数学算法来猜测用户寻找的网站。在此图中,如果每个气泡代表一个网站,有时称为蜘蛛的程序会检查哪些网站链接到哪些其他网站,箭头代表这些链接。网站获得更多入站链接或更强大的链接被认为更重要,用户正在搜索什么。在此示例中,由于网站B是众多入站链接的接收者,因此它在网络搜索中排名更高。并且链接“贯穿”,使得网站C,即使它只有一个入站链接,具有来自高度流行的站点(B)的入站链接,而站点E没有。注意:百分比是四舍五入的。
领先的搜索引擎,如谷歌,必应和雅虎!,使用抓取工具查找其算法搜索结果的页面。从其他搜索引擎索引页面链接的页面不需要提交,因为它们是自动找到的。在雅虎 目录和DMOZ,分别在2014年和2017年关闭的两个主要目录,都需要手动提交和人工编辑审查。[39] Google提供Google Search Console,其中包含XML Sitemap可以免费创建和提交Feed,以确保找到所有页面,尤其是除了URL提交控制台之外,还可以通过自动跟踪链接[40]来查找不可发现的页面。[41]雅虎!以前运营的付费提交服务,保证抓取每次点击成本 ; [42]然而,这种做法于2009年停止。
在抓取网站时,搜索引擎抓取工具可能会查看许多不同的因素。并非每个页面都被搜索引擎编入索引。来自站点根目录的页面距离也可能是页面是否被爬网的一个因素。[43]
今天,大多数人都在使用移动设备在Google上搜索。[44] 2016年11月,谷歌宣布对抓取网站的方式进行了重大更改,并开始将其索引设为移动优先,这意味着您网站的移动版本成为Google在其索引中包含的内容的起点。[45]