计算广告-笔记10：基础知识储备

信息检索

文档表示方法：用各个关键词在文档中的强度(如TF-IDF)组成的矢量来表示文档
词频(Term Frequency, TF)：某文档中，该词出现的频率
倒数文档频率(Inverse document frequency, IDF)：该词在所有文档中出现的频繁程度的倒数
- DF(m)：出现词m的文档总数目
- N：总的文档数目
- 出现m的文档越多，则DF(m)越大，N不变，则IDF越小，表示该词重要性越低
相似度度量方法：一般采用余弦相似度
- 两个矢量在尺度上没有归一化时，仍然可以得到比较稳健的结果

把模型的参数看成是固定的，找到使得训练数据上似然值最大的参数

最大熵(ME)
- 原理：当在某些约束条件下选择统计模型时，需要尽可能选择满足这些条件的模型中不确定性最大的那个。
- 最大熵解<==>对应指数型分布的最大似然解
指数族分布(单模态)
指数族分布参数的最大似然估计，可以完全由其充分统计量u(x)得到。
重要的指数族分布
- 高斯分布
- γ分布
- β分布
- 多项式分布
混合模型(多模态)
- 高斯混合模型(Mixture of Gaussians, MoG)
- 概率潜在语义索引(Probabilistic Latent Semantic Index, PLSI)
- EM算法

模型参数服从一定分布的随机变量

Edge

1 月前

2024-4-01 22:56:35

Your article helped me a lot, is there any more related content? Thanks!

发送评论编辑评论