这里可以设置广告或签名,请到【首页】用户名旁边-【设置】-【个人资料】-【个人信息】-【个人签名】设置
|
如何利用淘宝的分词来帮助我们合理的书写标题今天跟大家分享一下淘宝的分词算法,分词我想大家都不陌生,当然我们讲的是淘宝的分词技术,我们知道淘宝中的每一个宝贝都有一个标题,而标题是由很多的词或者说字组成的,那么对于这些词和字我们如何得知淘宝是如何拆分和识别的呢?再淘宝的分词识别中我之前写过一篇文章:淘宝的分词系统,其中介绍了淘宝的分词技术的发展和其影响因素和识别的内容,今天我们继续这个话题跟大家简单谈谈淘宝的系统是如何拆分关键词的,好了,废话少说,直接进入主题。8 {7 L; M8 y+ F. ~% K# H
分词;
" a4 S8 |) u6 m$ Q6 n4 J我们先拿出一个标题这里我准备了一个:
9 Q. n' O1 n' \4 d6 i6 s2013秋冬pu短裙女包臀裙子水洗pu皮裙A字裙显瘦修身前开叉半身裙3 g& L0 V% ]( I G3 u1 z% N2 j: U
我们先不说这个标题的好坏,我们来看下淘宝是如何去拆分这个标题的,上图:5 _+ l( \0 d! c- M4 s6 c% o. L( T
) R) X1 @- Y K/ d, N) a7 |6 e5 \9 K/ x
OK,这张图是淘宝的系统给标题进行了拆分的结果:: ^. O2 Y0 a: _" c/ k7 @( X
原标题:2013秋冬pu短裙女包臀裙子水洗pu皮裙A字裙显瘦修身前开叉半身裙' X; \: f, A' g4 S0 p
拆分后:2013/秋冬/pu/短裙/女包/臀/裙子/水洗/pu/皮裙/A/字/裙/显瘦/修身/前/开叉/半身/裙
: D( B0 ~* X4 D0 T. j细心的淘友们发现了淘宝在拆分的时候出现了一个词“女包”,很是纳闷,我们一眼就知道这款宝贝我们卖的裙子怎么变成女包了额,所以我们从淘宝的拆词系统中我们可以知道标题的关键词的组合是很重要的,而且淘宝的拆词算法是机器去做的,而并非是人工去拆分的,
) v/ R3 B% n: ~% p) k$ |所以在写标题的时候就一定要注意下这些细小的组成部分。不然的话就出现了误识别导致宝贝失去了原有的流量基础。
" o2 X) o/ C( b$ `那么针对这类问题如何进行修改呢?% w% ^) Q D6 D7 k) |0 g
修改后:2013秋冬pu短裙包臀裙子水洗pu皮裙A字裙显瘦修身前开叉半身裙4 U$ |+ |. p) }5 z
我们来看下淘宝是如何拆分的?: k" U* j! I5 m3 m# E, p: B
8 L& e9 z4 q4 \) B9 o& r1 |6 t6 B( x3 j# N
很显然已经非常正确的识别出来了,这里有的人就会很好奇的问::淘宝的拆词是如何进行的,因为我们能够看到的个体也就是我展示的图片是淘宝拆分后的一个结果图,那么如果我们知道了淘宝拆词的步骤和方法是不是说我们就很有效的让淘宝更好的识别我们的关键词呢,也就可以知道我们标题的权重指标是不是这样的呢?6 e) k: S6 X3 j8 S1 ^, q8 F3 v
好,不说废话,上标题:
5 v+ T8 b8 { {迎/51/特价/镜面/全棉/平顶/帽子/男女/帽子/遮阳/军帽/男女/帽子/男/帽子
$ c1 }: q7 m# h) E K+ F: @这是一款帽子的标题,标题的拆分结果我们已经用“/”表示出来,好,我们来看下淘宝的一个识别情况:
4 h B9 E- _. V" o% H& o- p通过数据采集采样,我做了一个识别的结果(这个是我个人收集整理的,大家仅供参考):
8 ?6 r+ d4 X7 G2 u: o2 o& D' W
, ]" p" R5 W5 E0 F
4 B& | y8 U: O我们看A类:是标题拆分后的一个结果,B类是词性,C类是最优类目,D类是该宝贝的最优类目的包含情况,以上数据采集来自数据魔方。4 Y6 k7 D$ s0 M/ g m- M5 r
好了,我们简单看到的一个结果是“镜面这个词”是不包含所在的类目的,从利润上来说单词的索引是可以识别的,但是我们标出了红色,表示不可用。好了我们先分析结果数据再来看这个推理,
( c5 o2 l+ y( Y3 y
( l& r( b0 I& N( C- J$ V5 r0 a3 r5 U3 C4 f9 R' L* a" r
OK,这是我们看到这款产品可以被识别的一些关键词从上到下是单词和组合词,我们简单来看下这两个小的概念,
* I3 T( o; \! q' E7 \. s. C& S7 h" ^单词:就是指拆分的最小单位* a; b* S8 a( \# E0 ]
组合词:由最小单位两个及以上的组合形式
1 L& J7 I9 O; |) d这里有人会问为什么很多的组合词没有出现,没有出现不代表没有,由于权重和人气不同识别的也是不同的,我们自己采集的时候就这么多了,所以大家将就看下,最重要的是了解其中的含义。
5 c3 R7 U w( p& C( v6 R! K3 L( TOK,我们标红的词我们看下上上面的那张表格,发现了木有,都是神马词?没错都是名词,对于这两个名词我们再来看下,“帽子”是类目词,“军帽”是名词但不是类目词。OK,这里我们就知道了淘宝第一识别的是什么,没错就是名词且是类目词优先识别,是不是有点像我们买家买东西一样,进入类目先点击一些关键词再输入一些关键词,模式是相通的哦!
; k% h r3 b; |* z: t好了,我们把刚刚标题去重一下:
7 F+ t9 W; ]" `! U& b' D# M: }2 ]特价/全棉/平顶/男女/遮阳/军帽/男/帽子0 `3 Q* R6 x" y6 h/ s
为什么很多关键词都木有了呢?包括镜面这个词,OK
5 }% v3 d! H6 E0 \# s" h0 K- l其实呢去重也是淘宝的一个关键的步骤,所以做标题的时候注意了哦,亲# q# }6 R/ z7 U2 a
OK,我们来观察下这组词:: U! F9 f( O) r2 e+ L! L
军帽 男" w: u- \3 F+ e2 e
帽子 男5 f: P: n( r. D1 |& ?; g$ s, \8 N
特价 男1 {+ T" Q9 x$ R9 P" P
平顶帽子* A \7 o% n0 b6 Q' A
平顶帽子 男
. y2 _4 E9 B1 I( h帽子特价
( O. {. V5 V5 r+ W, b帽子 军帽+ S6 O8 D+ q1 x7 E6 C. |; |
男 帽子 遮阳
4 j+ \4 U9 O) j: M6 {, Z4 a) H$ R遮阳 帽子) [0 x ^3 F! E4 [: j
遮阳军帽/ d+ b4 [8 @# g' ?
男女 帽子+ j5 R6 \ }, Z' H0 q; q2 \+ Z7 L
全棉 特价1 M$ O5 K; ~" Y& N" j ?
帽子 全棉. C- T4 b$ f# V! H: T( k" O' E
帽子 男特价$ K+ F, Y. v0 m7 J5 g
帽子 男 军帽+ g$ c3 u5 D7 m- W( ]
是不是又发现了一个秘密,什么秘密呢?第一系统很小去打破标题的顺序,虽然说标题中的顺序不是非常大的影响标题的识别,但是通过第一个例子和这里的样本,我们很显然知道是有影响的,OK,继续我们还可以知道这些组合词的组成基本上都是由靠近的邻词组成的,是不是大家可以自己去看下哦!
6 l/ p& ]* @+ j$ U4 ^! R; T: }: ?# P$ A
" P2 @2 m/ X2 w
0 q& j7 U3 C2 D7 b8 I' z3 F5 E& M7 \
8 H- r; }6 Y8 P7 k3 N$ h
2 m$ ~& K! y6 S
|
评分
-
查看全部评分
|