用數(shù)據(jù)對女生胸圍來次一本正經(jīng)的探索吧!
?
關(guān)愛女性健康,從我做起!

小早說:關(guān)愛女性健康,從我做起!
一、緣起心血來潮,突然想爬取天貓內(nèi)衣的購買信息記錄,來對中國廣大女性的胸圍情況來次認真地探討(很認真的那種)。
爬取內(nèi)容為評論里的信息,包括尺碼,顏色以及評價。
數(shù)據(jù)獲取過程如下:
1. 習(xí)慣性打開開發(fā)者工具,果不其然,評論信息是動態(tài)生成的。
2. 所以就要到 network 去抓包,數(shù)據(jù)是 json 格式的。
3. 搞到評論的具體網(wǎng)址后分析下各參數(shù),用 list 迭代豈不美滋滋?
4. 第一次迭代爬取 10w 條評論后用 set 去重后只剩下 1000 多條???
5. 經(jīng)分析,它每隔幾頁評論就會彈出一個反爬蟲連接驗證登錄,而且靠后一點,如 100 頁后的數(shù)據(jù)顯示的總是重復(fù),經(jīng)優(yōu)化后一個商品差不多能爬到 4000 條不重復(fù)的評論。
6. 也可能是我技術(shù)還不到家吧,能力不夠,努力來湊。
7. 我就爬取了不同的約 50 件商品的記錄,得到了 20w 條評論信息(樣本容量還是有點小,不過取樣的范圍廣一點)。二、前言前言首先,得對內(nèi)衣的尺碼有所了解,為此我專門查了一下,在這里給對這個還不熟悉的男同胞們科普一下。
胸圍分為上胸圍和下胸圍。如何測量下胸圍尺碼?
水平圍繞胸部乳房底部一周的長度,即為胸部下圍尺寸,單位:CM。
如何測量上胸圍方法?
水平圍繞胸部最高點(乳.頭)一周的長度,即為胸上圍尺寸,如測量尺寸時遇到小數(shù),測量時建議采用進一法,例如 72.1 公分,計算為 73 公分。
還不知道怎么測量,看圖。

如何計算罩杯的大小?
罩杯的大小就是上胸圍減去下胸圍的差。
根據(jù)步驟一測量的結(jié)果,用胸圍尺寸 - 下胸圍尺寸的差,即確定罩杯號型,對應(yīng)罩杯參考。

本來以為 A 已經(jīng)夠優(yōu)秀了,沒想到還有 AA 的,比優(yōu)秀還優(yōu)秀。
加油,摸摸大! 接下來就是確定具體尺碼了,尺碼有兩種,英式尺碼和國際尺碼。

不能再描述下去了,再描述下去成BRA科普文了,上酸菜,啊不,上正文~~
三、正文有了這些基本概念后,我們再來看看這具體的 20w 條數(shù)據(jù)能告訴我們什么。
顏色對顏色進行分詞統(tǒng)計詞頻,清理數(shù)據(jù)后共有 136 個,對 top20 生成條形圖。

膚色 黑色 粉色 在第一梯隊,遙遙領(lǐng)先。
灰色 白色 卡其色 紫色 藍色 淺紫色 紅色 貴族黑 淺藍 處于第二梯隊,貴族黑和黑色有什么差別?黑得若隱若現(xiàn)?
薄杯,薄款,厚款,超薄 按厚度來,厚款 > 薄款 > 薄杯 > 超薄 ?
廣大女性對薄款還是更多鐘愛的,是因為現(xiàn)在夏天薄的比較涼爽嗎?還是薄的性感一點?
具體 top60如下:
膚色, 67861
黑色, 48686
粉色, 15788
鋼圈, 14846
薄款, 11928
薄杯, 9874
單件, 7109
灰色, 6486
白色, 6345
套裝, 6228
卡其色, 5745
紫色, 5540
藍色, 5333
厚款, 5126
淺紫色, 4336
紅色, 4322
貴族黑, 4285
拉絲, 3793
淺藍, 3667
超薄, 3627
下厚, 3459
上薄, 3459
綁帶, 3236
酒紅, 3215
膚嫩色, 2804
三排, 2543
亮面, 2403
純色, 2205
輕膚, 2189
蕾絲, 2102
銀灰色, 1979
藕荷色, 1802
玫紅, 1781
寶藍色, 1681
純潔, 1659
全光膚, 1642
銀灰, 1636
咖啡色, 1587
光面, 1548
段染, 1547
蝦粉, 1546
水晶, 1371
亞光版, 1262
藏青, 1211
輕粉, 1185
綠色, 1113
淺綠色, 1074
粉紅色, 1056
全光, 1053
金膚色, 1006
豆沙, 870
典雅, 788
果綠, 722
冰沙粉, 699
紫顏色, 678
經(jīng)典, 649
藍邊, 643
奶白色, 621
淺粉, 563
薄荷綠, 556才知道原來顏色可以有這么多種,長姿勢了...
土豪金 靜謐藍 個性黑 挺別致的,蕾絲 好像也深受喜愛,最后來個詞云。

尺碼這 20w 條數(shù)據(jù)中,下胸圍范圍為 [ 70cm - 90cm ],罩杯范圍為 [ A - E ]。
先來看看總體的胸圍情況。

總體上呈現(xiàn)先升后降的趨勢,以 75cm 為分界點開始下滑。
總體范圍還是在 70cm - 85cm, 95cm 的基本上已經(jīng)很少了。
一是可能爬取的內(nèi)衣商品里面有的沒賣 95cm 的,二是這胸圍的本來就少...
下胸圍對應(yīng)的總體比例。

再來看看總體的罩杯情況。

也是先升后降的趨勢,這個是以 B 罩杯為分界點開始下滑,但是這個滑得明顯比較陡峭一點,E 罩杯 只有可憐的 155。
哎!現(xiàn)實太骨感了,還是理想豐滿一點。
罩杯對應(yīng)的總體比例。

看完總體看具體,以罩杯為橫坐標,繪制出各胸圍對應(yīng)的罩杯情況。

基本上都是先升后降,75cm 80cm 85cm 的是以 B 罩杯為分界點變換趨勢,只有 70cm 的是一路向下滑。
90cm 和 95cm 由于量不足,在這個圖里基本上已經(jīng)貼著 X 軸了,把這兩個單獨拉出來看看。

這下就明顯很多了,這兩個是以 C 罩杯為分界點變換趨勢的,因為畢竟胸圍大,罩杯大的幾率會大一點。
值得注意的是,95cm 是沒有 A 罩杯和 E 罩杯的。
95cm 的胸圍 A 的罩杯,這太可憐了吧,95cm 的胸圍 E 的罩杯,那也是強得不敢想象。
以胸圍為橫坐標,繪制出各罩杯對應(yīng)的胸圍情況。

這個的趨勢就比較有趣了,A 罩杯和 B 罩杯以 75cm 為分界點,開始下降。
A 罩杯降得比 B 罩杯稍微平緩一點,C 罩杯的波動就平緩很多,可能也是總體的量偏少,加上圖表比例的關(guān)系。
至于 D 罩杯和 E 罩杯,還是貼地了,我也把它倆單獨拉出來。

可以看到 D 罩杯是呈現(xiàn)梯狀的,E 罩杯由于量實在少,基本上毫無波動。
再詳細看看數(shù)據(jù)集中的范圍吧。胸圍范圍為 [ 70cm - 85cm ],罩杯范圍為 [ A - C ],其對應(yīng)的比例分別如下。
70cm 的情況,A > B > C

75cm 的情況,B > A > C

80cm 的情況,B > A > C

85cm 的情況,B > C > A

70cm 的小胸圍罩杯比例 A > B > C,小胸圍的本身應(yīng)該就是偏瘦,瘦的話罩杯也是偏小。
75cm 和 80cm 的 B 罩杯的比例都要稍大于 A 罩杯的。
85cm 的 C 罩杯已經(jīng)反超于 A 罩杯了,畢竟胸圍大,罩杯也不會小到哪里去。
評價一樣的套路,分詞然后統(tǒng)計詞頻,進行數(shù)據(jù)的清理。
其中有 42321 條評論用戶是沒有填寫評論的,這個不進行處理。
由于評價沒有統(tǒng)一規(guī)范,這個統(tǒng)計出來的詞就多了去了,由 top20 生成條形圖。

舒服 不錯 喜歡 滿意 可以 好評 合適 這些都是不錯的評價,聚攏 ?顯得大一點嗎?
展示一下 top60,如下。
舒服, 39425
不錯, 38335
質(zhì)量, 27383
喜歡, 21841
穿著, 19816
內(nèi)衣, 18281
寶貝, 17377
非常, 16812
聚攏, 14919
收到, 14881
滿意, 14558
效果, 12684
可以, 11989
好評, 11520
合適, 10705
購買, 10254
沒有, 9114
就是, 8807
有點, 8658
特別, 8455
真的, 8105
感覺, 7927
小, 7347
顏色, 6945
下次, 6876
這個, 6557
物流, 6517
起來, 6279
好看, 6250
還會, 5864
夏天, 5585
以后, 5472
值得, 5457
尺碼, 5453
第二次, 5415
價格, 5378
舒適, 5369
不會, 5169
還是, 5080
而且, 5052
適合, 5041
賣家, 4964
一樣, 4834
鋼圈, 4756
東西, 4711
客服, 4696
一下, 4638
大小, 4591
面料, 4531
試穿, 4476
挺舒服, 4468
推薦, 4383
很快, 4037
便宜, 3996
一次, 3843
但是, 3717
已經(jīng), 3714
超級, 3692
衣服, 3621
一個, 3476第二次都出現(xiàn)了 5415 次,看來是回頭客了。
來看一下沒有排上 top60 的其他詞,來個有趣一點的。
哈哈, 989
哈哈哈, 554
哈, 318
哈哈哈哈, 170所以,哈多少個是看心情決定的嗎?
便宜, 3996
實惠, 3216
方便, 1708
性價比, 1662貨比三家,上網(wǎng)買東西圖的就是一個方便和便宜。
其他的就不再詳細分析了,還是老規(guī)矩,上個評價的詞云。

四、最后最后看我用散點圖畫出一個內(nèi)衣。

什么?不喜歡這火辣的紅色,那來個性感的黑色。

用散點圖表白也不是說不行,諾!

最后一張圖引用我心目中永遠的大神 Linus 的一句話。

Talk is cheap,show me the data!
本文鏈接: http://www.yixieshi.com/98221.html (轉(zhuǎn)載請保留)