Similarity and Dissimilarity of financial data 金融数据的相似性与相异性
上一节
下一节
主要知识点:
1.什么是数据的相似度和相异度?
相似度就是对两个对象相似程度的数值度量。因此,两个对象越相似,其相似度的值就越高,但通常落在0(不相似)和1(完全相似)之间。
相异度就是两个对象差异程度的数值度量,因此,两个对象越相似,其相异度的值就越低,和相似度有差异的地方是,相异度的取值除了可以在0到1之间取值外,在0和∞之间的取值也很常见。
2.数据对象的相似度度量
对于二元数据来说,通常由相似系数来进行度量
当数据对象是文档数据,由向量表示时,通常由余弦相似度来进行度量
当数据对象由连续数值性属性描述时,可以通过相关性来度量不同数据对象间的相似度
3. 数据对象相异度的度量
曼哈顿距离
欧几里得距离
上确界距离

