什么是反转文件频率(IDF)?

张俊SEO
张俊SEO
张俊SEO
4068
文章
54
评论
2022年11月20日23:10:32
评论
0 539字阅读1分47秒

上次为大家介绍了什么叫做词频,在那篇文章中(),我们涉及到了一个新的概念:反转文件频率(IDF),那么这个是什么意思呢?今天我们就在这篇文章中为大家做一个介绍。

在了解这个概念之前,我们先了解下什么叫做文件频率,这个指的是一个在一定数量的文件中出现在多少个文件中,也就是有这个关键词的文件占所有文件的比例,这个就被叫做文件频率,而反转文件频率(IDF)就是文件频率的倒数,也就是文件总数除以带有关键词的文件数。

反转文件频率的中文名又被叫做逆向文件频率,被叫做这些名词,都是因为它跟文件频率的方向是相反的。

什么是反转文件频率(IDF)?
%title插图%num

这个是指的某一个关键词的普遍性的概念,比如某个关键词在所有文件中出现的次数,一万个文件中,这个关键词在1000个文件中出现了,这1000个文件对于这个关键词来说,肯定比其他的9000个文件更加的重要,所以理论上,关键词出现的文件数越少,这些出现关键词的文件对于这个关键词就越重要。这个就是反转文件频率的概念。

可以简单的理解为特定在关键词在某些文件中出现的频率高,而在其他文件中的出现的频率低,这些文件会在这个关键词的检索中会显得更加重要。

但是在实际的应用中,反转文件频率远远不是这么简单的进行理解的。下次我们将会介绍一个组合型的概念词频–反转文件频率(TF-IDF)。

声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。本站部分图文来源于网络,仅供学习交流,发表作品观点仅代表作者本人,本站仅提供信息存储空间服务,不承担连带责任。如有侵权,请联系管理员删除。
竞价托管
张俊SEO
  • 本文由 发表于 2022年11月20日23:10:32
  • 转载请务必保留本文链接:https://zhangjunseo.com/24017.html
网站seo优化重复与交错 seo优化

网站seo优化重复与交错

       。版式设计为了追求整齐、规律的效果,常常会重复使用形状、大小、方向相同的基本形式。         但单调...
广告也精彩
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: