最近换了工作岗位,被老大安排去搞数据分析。由于之前没有接触过,所以先练练手。想到之家里劳坛讨论、发帖之热烈,自然觉得这是一个很好的数据源。因此,采集了劳力士论坛里面,从19年3月29日往前大概30000篇(大致估算)帖子的内容(不包含评论),用来训练算法模型,做词频统计和语义分析。目前暂时得出一些词语频率的统计,在此和各位表友分享一下。
PS.因为刚入数据分析的坑,写的分析代码可能不太好,部分数据都应该存在漏算或者重复计数的情况,但对总体分布影响应该不大,大家就了解一下大致,不能作为准确数据。
PSS.不要说我统计这些数据很无聊,只是拿来练手,也为工作做技术储备,又能将将成果反馈给表友,是利己乐人的一件事哈。
![](https://bbsimg.xbiao.com/mobilePic/forum/201903/30/111900nxv1ckbh3jxz3v5f.png)
跑完程序,没有出错!![](https://bbsimg.xbiao.com/mobilePic/forum/201903/30/110518slxxeseps2ep2enn.png)
首先是劳力士各个系列的分布,尽可能将一些我们口语昵称归类,比如“黑鬼”归类到潜航者一类。(探险家的数据有问题,词典做得不好,有些昵称没有收录到,数字型号也没有收录)ps:补充一个数据 空中霸王型:420![](https://bbsimg.xbiao.com/mobilePic/forum/201903/30/110650zoqayc3zokjodnrd.png)
一些常见机芯型号在帖子里提及的分布![](https://bbsimg.xbiao.com/mobilePic/forum/201903/30/110738t3gzxrbgxkrsmxxm.png)
“咸甜党”类型提及次数的对比![](https://bbsimg.xbiao.com/mobilePic/forum/201903/30/110838x9oisq1cuv99j29i.png)
国内地区提及次数的分布(只列出较常见城市和省份)![](https://bbsimg.xbiao.com/mobilePic/forum/201903/30/110926cxlqlmkjmeo75xlq.png)
国外地区提及次数的分布。因为对部分国外城市不了解,无法做到从城市归类到国家。![](https://bbsimg.xbiao.com/mobilePic/forum/201903/30/111037imgls0933ipncay9.png)
常见争议提及数量![](https://bbsimg.xbiao.com/mobilePic/forum/201903/30/111346r5curnnu480nbrpk.png)
其他比较高频的词语。为什么要加上“老婆”,因为发现很多表友购表都要跟家里那位斗智斗勇,所以加上这个数据让大家乐呵一下哈哈。