推广 热搜: 行业  机械  设备    经纪  教师  系统  参数    蒸汽 

信息提取

   日期:2024-11-01     移动:http://yishengsujiao.xhstdz.com/quote/40.html

信息熵

即信息杂乱程度.计算公式为Σp(x) * log p(x)

信息提取

互信息

表示表示两信息的关联程度.计算公式为p(x,y)/p(x)*p(y)

1.词频统计

实现
改进

2.TF-IDF

实现
计算公式
适合场景

3.textrank

实现过程
Java–核心代码实现(此处参照HanLP

for (int i=0; i<max_iter;++i)
{
Map<String, Float> m = new HashMap<String, Float>();
float max_diff = 0;
for (Map.Entry<String, Set> entry: words.entrySet()))//words为单词到邻居节点的映射
{
String key = entry.getKey();
Set value = entry.getValue();
m.put(key, 1-d);//根据公式,节点的值设置为1-d,而后迭代更新
for (String element:value):
{
int size = word.get(element).size();//某节点邻接节点的邻接节点个数。有点拗口,分局公式,要计算某节点的权值,就需要知道其每个邻接节点有多少个邻接节点
if(key.equals(element) || size == 0) continue;//如果某节点与其邻接节点相同或者邻接节点没有邻接节点,则不进行后面的计算
m.put (key, m.get(key) + d/size*(score.get(element) == null? 0:score.get(element)))//根据前面的公式,循环迭代。其中score存放的是上一次循环计算结果
}
max_diff = Math.max(max_diff,Math.abs(m.get(key) - (score.get(key) == null ? score.get(key))))//两次计算的权重的最大值小于阈值,则停止迭代

本文地址:http://nhjcxspj.xhstdz.com/quote/40.html    物流园资讯网 http://nhjcxspj.xhstdz.com/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号