相信非常多的人都在用流量统计器,先进一点的功能齐全一点的流量统计系统会告诉你,你的网站在一定的时间区间访问你网站的访客性别,比如008年8月8日访问广州正佳科技的人数中,1%是女性,99%是男性。这个问题就很有趣了,那么这些数据的计算是通过什么方式分析的呢,毕竟电脑没有性别,只有操作电脑上网的人才有性别。那么这些数据可不可靠?网站流量统计器实现的原理又是什么样的呢?
你肯定与我一样很有好奇心!下面是国内其中一款有知的网站流量统计系统识别访客性别的工作原理。
首先,网站流量统计系统开发团队会耗费了大量的时间,建立了一个庞大的词库,这个词库是不断更新的,更新包括2个方面,第一个方面是不断的加入新的词汇,另一个方面则是进行词性的分析。不断加入新词大家比较容易理解,但是对于词性的判断可能大家不是很熟悉,词性的判断是这样的,比如:“软件”这个词,在一定程度上是存在男女性别兴趣度的,通过维度的算法和大量的基础调研,我们统计到如下数据:“软件”在概率上有1%的女性对这个词敏感,其中有99%的男性敏感。
第二步,一般URL上都会附着着一个句子,比如:某个URL上附着上的文字是:“最新软件下载。”网站流量统计系统开发团队会采集这个URL,然后进行分词处理,比如这个句子,在开发分析人员看来,会是这样的一个词组:“最新|软件|下载”我们会将这个句子做分词,然后分别分析性别概率。
比如:最新软件下载
会是这样: 最新(21%女性关注,79%男性关注)
软件(1% 女性关注,99%男性关注)
下载(10%女性关注,90%男性关注)
综合得到这个URL的性别比例概率:10%左右女性点击的可能性,90%男性点击的可能性,就此,我们得出这个URL的性别分布。
第三步,网站流量统计系统会统计某一个用户点击过所有的URL,包括上面的分词,然后累加做计算,然后部分参考用户鼠标行为,从而综合得到一个用户的性别概率分布。从而当某一个网站访问用户比较多,或者某一个网站使用一个流量统计比较长的时间后,这个流量统计系统基本上可以判断该网站性别分布概率。
总体来说,访问量比较大的站点,相对来说比较容易分析。如果访问量较小的站点,则需要较长时间进行连续统计分析。但是总体来说,统计到用户的URL越多,时间越长,数据的准确性越趋近真实性别分布概率。
以上是网站流量统计系统实现性别分析的大概过程,当然,真正的实现过程非常复杂,建立一个庞大的性别基准库,就相当大的消耗,而且基于词性本身的特点,词库需要不断的更新和进行基准判断。