文章内容相关性统计
左直拳
内容相关性我能想到的是比较两篇文章提取出来的标签。
每篇文章都可以提取出一些出现频率比较高的词语,就是标签,存放在数据库里。并且存放的时候已经按出现频率从高到低排列,频率高的标签保存在前面,低的在后面。假定标签表结构如下
PageTag
字段
|
含义
|
类型
|
Id
|
|
INT
|
TagId
|
标签ID
|
INT
|
PageId
|
文章ID
|
INT
|
则对于同一篇文章(PageId相同)来讲,出现频率高的标签,ID一定小于频率低的标签对应的ID。
比较的思路是,如果两篇文章,相同标签的频率越高,数量越多,则说明这两篇文章的相似度就越高。这好象涉及到一个叫“权重”之类的东西。不过我不知道什么叫权重。
找出某篇文章的相关文章的SQL语句如下:
SELECT a.PageId,SUM(b.Row) AS Weight FROM <place w:st="on"><city w:st="on">PageTag</city><state w:st="on"><span style="COLOR: blue">AS</span></state></place> a,
(SELECT TagId,ROW_NUMBER() OVER(ORDER BY Id DESC) AS Row
FROM PageTag
WHERE PageId=某篇文章的ID) AS b
WHERE a.PageId<>某篇文章的ID
AND a.TagId=b.TagId
GROUP BY a.PageId
结果就可以将文章和相应的相似度列出来了。Weight越大,相似度越高。
主要用了ROW_NUMBER(),并且ORDER BY Id DESC,所以频率越高的,ROW就越大,最后合计的SUM(Row)AS Weight就越大。同时,如果两篇文章相同的标签很多,合计数也跟着大,所以这个Weight应该可以反映权重。
注:这种算法在实际应用中效果不佳,除了提取出来的标签准确度不是很高外,算法本身也不太完善。比如说,一篇文章很长,提取出来的标签有10几个,而短的文章有的只有2、3个,这时候,长文章的标签权重普遍大于短文章的,统计出来就有偏差。
抛出我的吊,来吸引您的玉。
分享到:
相关推荐
此外,研究结果还报告了该研究文章中经常使用的统计方法是结构方程模型,使用该方法对4篇文章的相关性,然后是回归方法,ANCOVA和MANCOVA。 这项系统的文献调查的结果为统计关注与统计成就之间的关系提供了见解。 ...
皮尔逊相关性分析是用于衡量两个变量之间线性相关程度的统计方法。它计算两个变量之间的皮尔逊相关系数,取值范围为-1到1。 皮尔逊相关系数的取值范围为-1到1: 当相关系数为1时,表示两个变量完全正相关; 当相关...
包含内容: 1、数据导入和管理:从Excel、CSV、Stata文件导入和导出 2、数据的处理:生成变量、格式转换、重命名、数据缺失、异常数据、缩尾处理、分类编码、面板格式、合并数据、追加数据 3、描述性统计:基本统计...
根据您网站上的文章数量以及现有内容的相关性,Link Whisper 会建议您正在编辑的内容中的数十个或更多内部链接。 想要更快地建立内部链接以进行 SEO?尝试 Link Whisper 的“自动链接”功能! 只需输入您要从中...
对 不同性质分组资料进行对比时可选用直条图,说明事物各组成部分的构成情况可用圆形图或百分直条图,用于表达连续性资料频数分布可用直方图,为表明一事物随 另一事物而变化的情况选用线图,表达两种事物的相关性和...
本来看似简单的一个需求,但在网上搜索几次才找到一些方法和描述,也不是到是不是关键字描述的不够准确,找到的文章相关性不高。最后通过仔细阅读几篇文章和自己摸索,找到了一种使用传递引用的解决方案。 该方法...
对于给定的文章片段(30<单词数量),统计该片段中每个字符出现的次数,然后以它们作为权值,对每一个字符进行编码,编码完成后再对其编码进行译码。在 图形界面中演示该过程 对于给定的多篇文章构成的文档集中,...
文章编号:1001-828X(2018)025-0058-02 信息时代的来临使得大数据技术在全球范围内获得了很大的发展,对于政府统计机关来说大数据使用了多种数据收集模式,对各种数据进行整合而且通过现代信息技术以及高速处理的...
文章利用误差分析、相关性分析和DickinS0n源区构造背景判别三角图,比较了直线法和点计法的差别;实验数据分析表明,2种方法测量结果之间存在的差异微小,对岩石类型以及物源区的判别不受影响。但是,点计法在砂岩...
为了分析二维随机变量之间的相关性,本文基于二维联合Logistic分布模型,结合得分统计量,研究了可靠性窗口两端点的相关性检验方法,并给出了间隙零门可靠性窗口的估计方法.文章最后结合间隙零门试验数据,验证了...
文章利用我国146家装备制造业上市公司的数据,通过描述性统计分析、相关性分析、多元线性回归分析和Logistic回归模型实证研究了我国装备制造业上市公司中高管团队异质性、企业创新战略选择和企业创新绩效三者之间的...
相关性来确定配置文件可靠性的主要问题大大限制了研究的效用。 建议使用替代程序和更有效地使用 Roffe 和 Bryant 数据。 在本期刊最近的一篇文章中,Roffe 和 Bryant (1979) 试图调查 McCarthy Scales 的轮廓解释的...
它通过随机选择数据中的一部分,然后根据这些数据拟合模型,统计模型与其他数据的偏差,最终筛选出符合一定阈值的数据,用于估计参数。RANSAC可以应用于很多领域,如计算机视觉、机器人和地理信息系统等。其优点在于...
文章 姚加权,张锟澎,郭李鹏等.人工智能如何提升企业生产效率?——基于劳动力技能 结构调整的视角[J].管理世界,2024,40(02):101-116+133+ 117-122.DOI:10.19744/j.cnki.11-1235/f.20 24.0018. 二、复刻内容介绍 1、...
文章以协同学理论和加速遗传算法为基础, 构建了社会、经济与资源环境三系统的有序度模型和协同进化模型, 并给出相应的计算方法. 采用大连市的历史统计数据, 开展社会、经济与资源环境复合系统协同进化的实证研究, ...
为了研究黄土导热性能与其物理力学参数之间的关系,文章对宁东黄土进行了导热系数、标准贯入试验及含水率、密度等参数的测试,对测得的数据进行了拟合及相关性分析,讨论了不同参数与导热系数的关系。试验结果表明,非...
文章目录1. 总体主成分分析2. 样本主成分分析3. 主成分分析方法3.1 相关矩阵的特征值分解算法3.2 矩阵奇异值分解算法4. sklearn.decomposition.PCA 主成分分析(Principal Component Analysis,PCA)是一种常用的无...
本文探讨了使用机器学习模型来构建市场生成器。... 然后,文章提出了一种估计回测统计概率分布的新方法。 最终目标是开发一个框架来改进量化投资策略的风险管理,特别是在聪明贝塔、因子投资和另类风险溢价空间。
云里关键词挖掘大师是一款完全免费的长尾关键词挖掘工具,支持多个搜索引擎相关关键词挖掘,综合分析各搜索引擎相关热度关键词,分析出相关性最强的长尾关键词,支持的搜索引擎有:百度、谷歌、搜狗、搜搜、有道、...
析各搜索引擎相关热度关键词,分析出相关性最强的长尾关键词,支持的搜索引擎有:百度、谷歌、搜狗 、搜搜、有道、必应、淘宝等。官方网站:http://www.cloudin.so 1、多搜索引擎支持:云里关键词挖掘大师自带文章...