博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
lucene源码分析(4)Similarity相似度算法
阅读量:7238 次
发布时间:2019-06-29

本文共 473 字,大约阅读时间需要 1 分钟。

lucene 7.5.0默认的评分Similarity是BM25Similarity (IndexSearcher.java)

// the default Similarity  private static final Similarity defaultSimilarity = new BM25Similarity();

技术分享

IDF公式

技术分享

  • f(qi,D):就是词频
  • |D|:[给定文档]D长度。
  • avgdl:索引中所有文档长度。

早期的版本使用的是TFIDFSimilarity,

Lucene TFIDFSimilarity给出的理论评分公式:

对应的还有

 

修改相似度算法的实现可以通过下面的方法实现

/** Expert: Set the Similarity implementation used by this IndexSearcher.   *   */  public void setSimilarity(Similarity similarity) {    this.similarity = similarity;  }

 

转载地址:http://zklfm.baihongyu.com/

你可能感兴趣的文章
Java ArrayList、Vector和LinkedList等的差别与用法(转)
查看>>
用flock命令解决Linux计划任务重复执行
查看>>
[再寄小读者之数学篇](2014-06-19 两个分部积分)
查看>>
Opencv cvCircle函数
查看>>
CMD命令 - yanghj - 博客园
查看>>
mysql 加入列,改动列,删除列。
查看>>
网格导入设置 Import settings for Meshes
查看>>
m2014-architecture-imgserver->Lighttpd +mod_mem_cache的效果简直太好了
查看>>
POSIX semaphore: sem_open, sem_close, sem_post, sem_wait
查看>>
wcf中的使用全双工通信(转)
查看>>
PowerDesigner生成Access数据库
查看>>
20140720感受
查看>>
Android平台调用Web Service:演示样例
查看>>
${ }的用法
查看>>
【JavaScript】 2013年度最强AngularJS资源合集
查看>>
使用boost中的property_tree实现配置文件
查看>>
数据结构导论第一遍
查看>>
Thread+Handler 线程 消息循环(转载)
查看>>
Objective-C中的Block回调模式
查看>>
Linux 搭建SVN server
查看>>