我们如何自动选择类似产品

图片



之前的 文章中,我谈到了我们如何学习如何比较不同来源的产品并填写产品卡-特性,图像,说明。当知道了供应商的价格,竞争者的价格和商品的特征时,逻辑上的延续就是寻找有关类似物或性质相似的商品的信息。



这可以以不同的方式使用,例如,向客户显示产品卡上的几个相似位置,也许他会喜欢另一个。如果某件产品缺货,则库存中类似产品的清单也将很有用。第二种选择是将此信息提供给呼叫中心员工,以便他们在所请求的产品不可用时可以快速(或原则上可以提供)模拟产品,或者该模拟产品更适合客户的需求。



您如何判断产品是否相似?您可以比较特性,匹配程度越高,产品越相似。不幸的是,它不那么容易工作。实际上,事实证明,通常,几乎没有产品可以满足所有特征。80%是一个很好的结果。其次,某些特征比其他特征更重要。例如,一台65英寸电视与22英寸电视完全不同,尽管它们都有2个USB端口。或者,另一个例子是,金属壳和铝壳比塑料更彼此靠近,尽管它们是三种不同的含义。



因此,要选择类似的产品,我们需要解决以下任务:



  1. 分配体重特征。对角线的大小很重要,USB端口的数量则不太重要。
  2. 确定每个特性的值范围,并在其上设置值之间距离的函数。
  3. 决定一种策略,该策略用于处理一种产品(而不是另一种产品)已知的情况。
  4. 具有所有特征值之间的距离,计算货物之间的距离。
  5. 考虑性能,计算所有距离对具有复杂性

    Øñ2

    如果对一万种商品计算5000万个距离似乎不是一个大问题,那么对于30万种商品而言,500亿个已经是很多了。


让我们解决这些问题。在某种程度上,这将是一项研究工作。



我们如何确定特征权重



我们使用了两个具有权重的基本思想。



  • 影响价格的特征很重要。相反,不一定是正确的。例如,手机的颜色很重要,但几乎不影响价格。
  • 为了确定不影响价格的重要特征,我们假设它们平均而言更好。


此外,对于每个类别,我们为所有特征分配权重。为此,请执行以下操作:



  1. 如果特征是数字,那么我们考虑与皮尔逊价格的相关性。
  2. 如果枚举具有互斥的选择(但不是数字),则我们按具有该值的商品平均价格对元素进行排序,然后计算与Spearman价格的相关性。
  3. 如果提供了多个选择,则将其简化为一组互斥(是/否),然后根据Spearman计算每个与价格的相关性。我们根据选项的数量来减少所得系数。
  4. 我们为每个特征计算填充值的百分比,并增加或减少先前获得的权重。
  5. 所获得的值可以用作权重,但实际上,如果再次对其进行非线性转换以保持顺序,则可获得最佳结果。


每个步骤都有自己的细微差别,例如,如果在一种情况下仅了解零售价格,在另一种情况下仅了解批发价格,而在第三种情况下了解其他价格,则如何计算价格。或其中一家商店错误地定价,并以同一系列的橱柜价格出售床头柜。



我们如何计算货物之间的距离



选择用于计算特征值之间距离的算法,我们需要记住要如何计算商品之间的距离,并要考虑各个特征与其重量之间的距离。我的直觉告诉我从n维空间中的一个距离开始,即特征之间距离的平方和的平方根。



此外,直觉说在这种情况下,如果满足三角形不等式,则值之间距离的函数应该是分布的,甚至更好。我无法证明此类要求的正确性,但我们将遵守这些条件。



然后可以将以下函数视为距离的函数:



  • — , . , 35 , — 75 , 40 . .
  • — (, ?), . .
  • , .


现在有关性能。实际上,事实证明,在合理的时间内(最多5分钟),我们可以计算3万种商品之间的成对距离。但同时,在某些类别的商品中,例如,目录中可能有十万个床垫,在这种情况下,我们正在谈论将花费的时间增加十倍。



这种情况的优化如下所示:我们按重量最大的特征值订购所有产品

ØñØGñ

这比

Øñ2

然后,我们将所有乘积划分为重叠的组(例如重叠20%),并计算每个组内的成对距离。因此,一个类别中多达3万种产品,处理时间随着

Øñ2

从三万开始

ØñØGñ





结果



我将给出使用该算法自动搜索相似产品的结果的几个示例(表中的第一个将是我们正在寻找相似产品的产品)













博世WLT24540OE

博世WLN24240OE

三星WW80K6210RW

博世WLT24460OE

西门子WS12T440OE

西门子WS12T540OE

一种 自动

自动

自动

自动

自动

自动

执行 独立式

独立式

独立式

独立式

独立式

独立式

装衣服 额叶的

额叶的

额叶的

额叶的

额叶的

额叶的

最大负载 7

7



7

7

7

颜色 白色

白色

白色

白色

白色

白色

能源等级 A +++

A +++

A +++

A +++

A +++

A +++

自旋类











程序数 十四

十五

十四

十五



十四

舱口颜色

白色

黑色的







最大旋转速度 1200

1200

1200

1200

1200

1200

印第安 程序结束之前的时间 +



+

+

+



能量消耗 2300,00





2300,00

2300,00



不平衡控制 +

+

+

+

+

+

主体材质 塑料

塑料

塑料

塑料

塑料

塑料

电源线长度 1.75

1.75









嵌入









在台面下

鼓数

1个







1个

选择旋转速度 +

+

+

+

+

+

取消旋转 +

+

+

+

+

+

气泡发生器



+







所有程序 合成纤维

额外冲洗

额外冲洗

额外冲洗

额外冲洗

生态洗

上市日期 2016年

2016年

2016年

2015年





每周期耗电量 0,91

0,91



0,96

0,91

0,91

38,00

38,00



38,00

38,00

38,00





8100,00





8550,00

A

A

A

A

A

A

+

+

+

+

+

+



56

56

56

56



56

77

78

75

78

76

77











165°

32,00





32,00

32,00

32,00



+



46,00



46,00

46,00

46,00

























+

+

+

+

+

+









+









+

+





+

+

+







+

+

+

+







+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+







+























84,80

84,80

85,00

84,80

84,80

84,80

59,80

59,80

60,00

59,80

59,80

60,00

44,50

44,60

45,60

44,40

44,60

44,60

48,60

48,60



48,60

47,40



65,00

63,00

67,00

64,00

65,00

63,00

-























Hotpoint-Ariston WMTF 701 H CIS

Hotpoint-Ariston WMTL 601 L CIS

Gorenje WT62093 468938

Whirlpool AWE 7515/1

Zanussi ZWY51004WA































7

6

6

5.5

5.5











A+

A+

A+

A+

A+

C

C

C

C

C

18

18

18

11













1000

1000

900

1000

1000

2100,00

2100,00



2100,00





+

+

+

+

















1





+

+

+

+



+

+

+

+











1,18



1,02

0,93



50,00



48,00

48,00









8674,00



A

A

A

A

A



59

59

59

59

58

75

76

76

76

75





























42,00























+



+

+

+



A

A









+



+









+



+

+

+

+

+

+

+

+

+













90,00

90,00

85,00

90,00

89,00

40,00

40,00

40,00

40,00

40,00

60,00

60,00

60,00

60,00

60,00



58,00

58,00

58,00

58,00

-











这些示例表明,从原则上讲,该算法做得很好,并且在第一种情况下选择了水平深度相同,最大载荷大致相同的水平独立式自动洗衣机(我不是洗衣机的专家,但是这些特征对我来说似乎很重要)。在第二种情况下-也是独立式自动洗衣机,但具有最高负载。提议的选项的宽度和深度相同。在这两种情况下,都没有提供激活器或内置机器,以及紧凑型壁挂式机器,尽管它们在目录中。



大型家电专家可能会做得更好(我们与销售人员讨论了不同类别的结果,他们批准了大多数选项,但也建议了我们未包括在结果中的选项)。尝试以自己作为买方的结果时,我发现这样的建议很有用,但我并未发现期望方面的重大失误。



因此,在实施该算法后,仅以产品名称作为输入,我们就可以自动从供应商和竞争对手那里找到它,填写其特征,选择图像,甚至提供类似物。这极大地简化了内容经理和销售经理的工作。



All Articles