在之前的 文章中,我谈到了我们如何学习如何比较不同来源的产品并填写产品卡-特性,图像,说明。当知道了供应商的价格,竞争者的价格和商品的特征时,逻辑上的延续就是寻找有关类似物或性质相似的商品的信息。
这可以以不同的方式使用,例如,向客户显示产品卡上的几个相似位置,也许他会喜欢另一个。如果某件产品缺货,则库存中类似产品的清单也将很有用。第二种选择是将此信息提供给呼叫中心员工,以便他们在所请求的产品不可用时可以快速(或原则上可以提供)模拟产品,或者该模拟产品更适合客户的需求。
您如何判断产品是否相似?您可以比较特性,匹配程度越高,产品越相似。不幸的是,它不那么容易工作。实际上,事实证明,通常,几乎没有产品可以满足所有特征。80%是一个很好的结果。其次,某些特征比其他特征更重要。例如,一台65英寸电视与22英寸电视完全不同,尽管它们都有2个USB端口。或者,另一个例子是,金属壳和铝壳比塑料更彼此靠近,尽管它们是三种不同的含义。
因此,要选择类似的产品,我们需要解决以下任务:
- 分配体重特征。对角线的大小很重要,USB端口的数量则不太重要。
- 确定每个特性的值范围,并在其上设置值之间距离的函数。
- 决定一种策略,该策略用于处理一种产品(而不是另一种产品)已知的情况。
- 具有所有特征值之间的距离,计算货物之间的距离。
- 考虑性能,计算所有距离对具有复杂性 如果对一万种商品计算5000万个距离似乎不是一个大问题,那么对于30万种商品而言,500亿个已经是很多了。
让我们解决这些问题。在某种程度上,这将是一项研究工作。
我们如何确定特征权重
我们使用了两个具有权重的基本思想。
- 影响价格的特征很重要。相反,不一定是正确的。例如,手机的颜色很重要,但几乎不影响价格。
- 为了确定不影响价格的重要特征,我们假设它们平均而言更好。
此外,对于每个类别,我们为所有特征分配权重。为此,请执行以下操作:
- 如果特征是数字,那么我们考虑与皮尔逊价格的相关性。
- 如果枚举具有互斥的选择(但不是数字),则我们按具有该值的商品平均价格对元素进行排序,然后计算与Spearman价格的相关性。
- 如果提供了多个选择,则将其简化为一组互斥(是/否),然后根据Spearman计算每个与价格的相关性。我们根据选项的数量来减少所得系数。
- 我们为每个特征计算填充值的百分比,并增加或减少先前获得的权重。
- 所获得的值可以用作权重,但实际上,如果再次对其进行非线性转换以保持顺序,则可获得最佳结果。
每个步骤都有自己的细微差别,例如,如果在一种情况下仅了解零售价格,在另一种情况下仅了解批发价格,而在第三种情况下了解其他价格,则如何计算价格。或其中一家商店错误地定价,并以同一系列的橱柜价格出售床头柜。
我们如何计算货物之间的距离
选择用于计算特征值之间距离的算法,我们需要记住要如何计算商品之间的距离,并要考虑各个特征与其重量之间的距离。我的直觉告诉我从n维空间中的一个距离开始,即特征之间距离的平方和的平方根。
此外,直觉说在这种情况下,如果满足三角形不等式,则值之间距离的函数应该是分布的,甚至更好。我无法证明此类要求的正确性,但我们将遵守这些条件。
然后可以将以下函数视为距离的函数:
- — , . , 35 , — 75 , 40 . .
- — (, ?), . .
- , .
现在有关性能。实际上,事实证明,在合理的时间内(最多5分钟),我们可以计算3万种商品之间的成对距离。但同时,在某些类别的商品中,例如,目录中可能有十万个床垫,在这种情况下,我们正在谈论将花费的时间增加十倍。
这种情况的优化如下所示:我们按重量最大的特征值订购所有产品
这比
然后,我们将所有乘积划分为重叠的组(例如重叠20%),并计算每个组内的成对距离。因此,一个类别中多达3万种产品,处理时间随着
从三万开始
结果
我将给出使用该算法自动搜索相似产品的结果的几个示例(表中的第一个将是我们正在寻找相似产品的产品)
|
|
|
|
|
|
|
博世WLT24540OE
|
博世WLN24240OE
|
三星WW80K6210RW
|
博世WLT24460OE
|
西门子WS12T440OE
|
西门子WS12T540OE
|
|
一种 | 自动
|
自动
|
自动
|
自动
|
自动
|
自动
|
执行 | 独立式
|
独立式
|
独立式
|
独立式
|
独立式
|
独立式
|
装衣服 | 额叶的
|
额叶的
|
额叶的
|
额叶的
|
额叶的
|
额叶的
|
最大负载 | 7
|
7
|
八
|
7
|
7
|
7
|
颜色 | 白色
|
白色
|
白色
|
白色
|
白色
|
白色
|
能源等级 | A +++
|
A +++
|
A +++
|
A +++
|
A +++
|
A +++
|
自旋类 | 乙
|
乙
|
乙
|
乙
|
乙
|
乙
|
程序数 | 十四
|
十五
|
十四
|
十五
|
|
十四
|
舱口颜色 | 银
|
白色
|
黑色的
|
银
|
银
|
银
|
最大旋转速度 | 1200
|
1200
|
1200
|
1200
|
1200
|
1200
|
印第安 程序结束之前的时间 | +
|
|
+
|
+
|
+
|
|
能量消耗 | 2300,00
|
|
|
2300,00
|
2300,00
|
|
不平衡控制 | +
|
+
|
+
|
+
|
+
|
+
|
主体材质 | 塑料
|
塑料
|
塑料
|
塑料
|
塑料
|
塑料
|
电源线长度 | 1.75
|
1.75
|
|
|
|
|
嵌入 |
|
|
|
|
|
在台面下
|
鼓数 |
|
1个
|
|
|
|
1个
|
选择旋转速度 | +
|
+
|
+
|
+
|
+
|
+
|
取消旋转 | +
|
+
|
+
|
+
|
+
|
+
|
气泡发生器 |
|
|
+
|
|
|
|
所有程序 | 合成纤维
|
额外冲洗
|
额外冲洗
|
额外冲洗
|
额外冲洗
|
生态洗
|
上市日期 | 2016年
|
2016年
|
2016年
|
2015年
|
|
|
每周期耗电量 | 0,91
|
0,91
|
|
0,96
|
0,91
|
0,91
|
38,00
|
38,00
|
|
38,00
|
38,00
|
38,00
|
|
|
|
8100,00
|
|
|
8550,00
|
|
A
|
A
|
A
|
A
|
A
|
A
|
|
+
|
+
|
+
|
+
|
+
|
+
|
|
— | — |
|
— | — | — | |
56
|
56
|
56
|
56
|
|
56
|
|
77
|
78
|
75
|
78
|
76
|
77
|
|
— | — | — | — | — | — | |
— | — | — | — | — | — | |
|
|
|
|
|
165°
|
|
32,00
|
|
|
32,00
|
32,00
|
32,00
|
|
|
— | — | — | — | +
|
|
— | — | — | — | — | — | |
|
46,00
|
|
46,00
|
46,00
|
46,00
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+
|
+
|
+
|
+
|
+
|
+
|
|
|
|
|
— |
|
+
|
|
— |
|
|
— |
|
|
|
+
|
+
|
|
|
+
|
+
|
|
+
|
|
|
|
+
|
+
|
|
+
|
+
|
|
|
|
+
|
|
+
|
+
|
+
|
+
|
+
|
+
|
|
+
|
+
|
+
|
+
|
+
|
+
|
|
+
|
+
|
+
|
+
|
+
|
+
|
|
+
|
|
|
— |
|
+
|
|
|
|
|
|
|
— | |
|
|
|
|
|
|
|
84,80
|
84,80
|
85,00
|
84,80
|
84,80
|
84,80
|
|
59,80
|
59,80
|
60,00
|
59,80
|
59,80
|
60,00
|
|
44,50
|
44,60
|
45,60
|
44,40
|
44,60
|
44,60
|
|
48,60
|
48,60
|
|
48,60
|
47,40
|
|
|
65,00
|
63,00
|
67,00
|
64,00
|
65,00
|
63,00
|
|
- |
|
|
|
|
|
|
|
|
|
|
|
|
Hotpoint-Ariston WMTF 701 H CIS
|
Hotpoint-Ariston WMTL 601 L CIS
|
Gorenje WT62093 468938
|
Whirlpool AWE 7515/1
|
Zanussi ZWY51004WA
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7
|
6
|
6
|
5.5
|
5.5
|
|
|
|
|
|
|
|
A+
|
A+
|
A+
|
A+
|
A+
|
|
C
|
C
|
C
|
C
|
C
|
|
18
|
18
|
18
|
11
|
|
|
|
|
|
|
|
|
1000
|
1000
|
900
|
1000
|
1000
|
|
2100,00
|
2100,00
|
|
2100,00
|
|
|
|
+
|
+
|
+
|
+
|
|
|
|
|
|
|
|
|
|
|
1
|
|
|
|
+
|
+
|
+
|
+
|
|
|
+
|
+
|
+
|
+
|
|
|
|
|
|
|
|
1,18
|
|
1,02
|
0,93
|
|
|
50,00
|
|
48,00
|
48,00
|
|
|
|
|
|
8674,00
|
|
|
A
|
A
|
A
|
A
|
A
|
|
— | — | — |
|
— | |
59
|
59
|
59
|
59
|
58
|
|
75
|
76
|
76
|
76
|
75
|
|
— | — | — |
|
— | |
— | — | — | — | — | |
|
|
|
|
|
|
— | — | — | — |
|
|
|
|
|
— |
|
|
|
|
|
42,00
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+
|
|
+
|
+
|
+
|
|
— | — | — | — |
|
|
A
|
A
|
|
|
|
|
|
+
|
|
+
|
|
|
|
|
|
+
|
|
|
+
|
+
|
+
|
+
|
+
|
|
+
|
+
|
+
|
+
|
|
|
— |
|
|
— |
|
|
— | — | — |
|
|
|
90,00
|
90,00
|
85,00
|
90,00
|
89,00
|
|
40,00
|
40,00
|
40,00
|
40,00
|
40,00
|
|
60,00
|
60,00
|
60,00
|
60,00
|
60,00
|
|
|
58,00
|
58,00
|
58,00
|
58,00
|
|
- |
|
|
|
|
|
这些示例表明,从原则上讲,该算法做得很好,并且在第一种情况下选择了水平深度相同,最大载荷大致相同的水平独立式自动洗衣机(我不是洗衣机的专家,但是这些特征对我来说似乎很重要)。在第二种情况下-也是独立式自动洗衣机,但具有最高负载。提议的选项的宽度和深度相同。在这两种情况下,都没有提供激活器或内置机器,以及紧凑型壁挂式机器,尽管它们在目录中。
大型家电专家可能会做得更好(我们与销售人员讨论了不同类别的结果,他们批准了大多数选项,但也建议了我们未包括在结果中的选项)。尝试以自己作为买方的结果时,我发现这样的建议很有用,但我并未发现期望方面的重大失误。
因此,在实施该算法后,仅以产品名称作为输入,我们就可以自动从供应商和竞争对手那里找到它,填写其特征,选择图像,甚至提供类似物。这极大地简化了内容经理和销售经理的工作。