未校正表示您当前浏览的排行榜数据由系统自动合并生成,可能会存在部分话题合并错误的情况。已校正表明当前浏览的排行榜已经经由人工纠错,不过也不能保证极个别情况下人工校正也失误。
由于人工校正话题是一个比较繁琐的工作,为了尽可能确保准确度需要把每天五六百个热门话题花费较长时间来回检查数遍,尤其是当前功能刚上线,有几十天的历史积累任务,如果您碰到存在未校正的数据敬请谅解,我们会尽快完整校正。- 19年3月18日删除
经过数次尝试发现人工校正在目前阶段还是没办法实用,耗费的精力太多,接下来主要精力会放在调整算法优化上(也算是藉由这个需求把本地机器升级了下😆,可以尝试更多的方案),希望能通纯机器达到一个相对不错的效果。
如果您不是从事计算机行业,下面的内容可能会对您理解这个问题有帮助,从根本上上来说计算机没办法做到从语义上去理解句子。我们这里计算话题相似度所采用的方法是先对这个话题进行分词(把整个句子切分成一个个词汇),比如我们有这么两个话题,"红通逃犯因游戏暴露"可以切分成【红通,逃犯,游戏,暴露】 "嫌犯玩游戏暴露被抓"可以切分成【嫌犯,玩游戏,暴露,被抓】,然后计算机计算两个话题间切分后的词汇关联度,逃犯跟嫌犯是关联度极强,游戏与玩游戏关联度也很高,暴露这个完全相同,这样我们给计算机设定一个阈值,比如说两个句子中超过70%词汇关联度很强那么这个句子就是相似。
上面的那个例子运行起来很美好,不过实际中会有各种问题。假设有这么两个话题,"苹果宣布与三星合作","小米宣布与华为合作",我们作为人类从语义上可以知道这是两个根本不同的话题,但是我们用上面例子的那个方法发现结果得到的是高度相似。为什么呢?这是由于苹果、三星、小米、华为均是知名手机厂商,计算机只知道他们关联度极强的词汇,它没办法知道这是两个完全不同的公司。目前有很多新的工具、算法可以在一定程度对我们的结果进一步优化,不过受限于当前自己精力及硬件资源(大多方案需要很高的硬件投入成本)暂时还只能将就,日后逐渐改进:)
第一步系统先把每日24小时内百度、微博、360、搜狗、今日头条五个网站的热门话题数据分别汇总,根据话题的排序值变化以及存在的时间计算出每个网站当日出现所有话题的一个排序值,需要说明的是经过观察,这些网站大都会人为插入一些热点,典型的特点是这些人为插入的热点排序一般靠前而且很固定比如一直是排名第四、第六然后过段时间就直接从排行榜消失不见,而不像正常的话题是一个排序值随着时间而变化,这些人为插入热点一般是娱乐新闻相关,我们在计算的时候会把这类话题权重降低,其余的话题不会做任何人为干涉。
第二步系统把这个五个网站的热门话题进行合并操作,比如百度热榜了"红通逃犯因游戏暴露",微博热榜有"嫌犯玩游戏暴露被抓",这两个就会被合并到一块,他们的排序值也会相加(在相加时针对每个网站热榜质量,我们对每个网站排序值所占权重我们进行了不同的设置),最后就得到了您看到的这个榜单。