你的答案

参考答案

答：首先，1000亿条记录全部放到内存肯定不够，那就是分成小文件了，然后整合；

公共的时间段，因为精确到分钟，我们把这每一分钟建成一个小文件，每个小文件肯定会有许多重复的ip，url；

现在统计每个小的文件中url的访问量和ip的访问次数，方法就是建立索引；

（建立索引的目的是为了减少查询次数，但是随着索引级数增多也会造成花更多的时间在建立索引上）；

建立url的索引，假如是www.nowcoder.com/question,可以分别给www.nowcoder.com和question建立索引，那么来了一条url，先看一级索引是不是匹配，匹配再看二级索引，相同的话就是我们要的url目标；

ip的索引也是一样，ip分成4段建立索引；

所以这里影响效率的就是在索引建立这块，索引建立好那就是查询的事了的，就会变得非常快。

假定给定了某个时间段，找出url的访问量，那么先找到给定的时间段，对应着刚开始分割的小的文件（每一个分钟）中搜索，通过索引找到相同的url之后，开始统计，直到搜索完所有的给定时间段内的所有的小的文件；

求ip的访问次数也是一样，按照给定的时间段，找到对应的小的文件，通过索引找到相同的ip后统计，直到搜索完了给定时间段内的所有的小的文件。

关键就是建立索引

转载地址：http://zziab.baihongyu.com/

你可能感兴趣的文章