字体:大 中 小    
		护眼
    	关灯
	上一页
	目录
	下一页
	
		  		第二百七十九章 潮水退去,全是大虾  (第9/16页)
态和内容进行关键词提取、照片信息提取,然后存档。    注意哦,这只是一个id的工作量。    比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。    那这些张三的人的所有的动态都得爬下来。    可是你怎么知道这一万个张三里面,哪一个是你想要的呢。    1    豆半的工作人员坚信昨晚这些人肯定是有相似性的,比如他们都是某一个人的粉丝。    那么他们的发言里一定会提到同样的东西。    这个时候就要再拿出来一个新的id,比如李四。    利用李四这个id,在微博上进行搜索,又出来一万个李四。    照例,全给爬取下来。    接下来是王五、赵六    然后再进行横向比对,一个个的去试!    总能试出来蛛丝马迹。    这个工作量是无比巨大的,对计算机的要求也很高。    这种情况下,豆半只能增加人手,外聘公司。    1    只是过去的这一夜,花了至少上千万。    但是这是目前为止豆半唯一的方法了。    其实还有一个方法,那就是豆半后台有这些新注册的人绑定的电话号码,如果他们拿着这些电话号码去找微博,在微博数据库里直接用电话号码查找的话,基本上一两个小时就能解决。    但是,这违法。    不同平台不可以把彼此的数据互通有无。    然而,豆半还真是高估了这些小粉丝们的水平了。    到第二天中午的时候,工作人员兴奋地跑来找北总:“北总!结果出来了!”    北总已经一夜没睡了。    听到这话
		
				
上一页
目录
下一页