欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

python 數據分析超簡單入門 : 項目實踐篇-36大數據

36大數據 ? 7年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

作者：劉妍

寫在前面的話：

項目來源于up主自學udacity中的一個項目實踐，up主自身能力不足，因此文章很淺顯
泰坦尼克數據集是kaggle中一個好的可選數據集，網上有很多基于此數據集的分析&存活預測實踐的文章
要有點python基礎哦~ 沒有也沒關系，先下載軟件跑跑代碼也是好的

話不多說，這就開始

python 數據分析超簡單入門 : 項目實踐篇-36大數據

一、前期準備

數據下載： https://d17h27t6h515a5.cloudfront.net/topher/2016/December/584bcec3_titanic-data/titanic-data.csv

軟件準備：python 2.7 （安裝 pandas 庫）

多嘴說一句，懶得裝各種庫各種包的童鞋，請直接下載anaconda。

另外推薦jupyter，代碼+報告結合神器

pandas — 用過的人都說好用，沒用過的小伙伴趕緊開始嘗試吧~~

python 數據分析超簡單入門 : 項目實踐篇-36大數據

二、分析開始

1、導入數據&查看基本信息

				import numpy as np
				import pandas as pd
				import matplotlib.pyplot as plt
				data_src='titanic-data.csv'
				df = pd.read_csv(data_src,header=0) # 導入數據
				print df.info()  # 查看數據集的基本信息,
				print df.describe() # 查看數據的摘要信息
				print df.head()  # 查看前幾行數據，方便了解數據具體情況

以 “ print df.info() ” 為例，運行后輸出如下結果：

python 數據分析超簡單入門 : 項目實踐篇-36大數據

其中：

PassengerId => 乘客ID
Survived => 是否生還
Pclass => 乘客等級(1/2/3等艙位)
Name => 乘客姓名
Sex => 性別
Age => 年齡
SibSp => 堂兄弟/妹個數
Parch => 父母與小孩個數
Ticket => 船票信息
Fare => 票價
Cabin => 客艙
Embarked => 登船港口

從數據集的基本信息可以看出，Age \ Cabin \ Embarked 是存在缺失值的，其中Cabin字段缺失值過多。

對于少量缺失值的情況，常用的方法是去除和補齊，數值型的數據是可以根據統計學的方法或者機器學習的方法將其進行補齊的。

對于存在大量缺失值的字段，應衡量此字段的重要程度與修復代價之間的權重。up主是果斷的沒有再考慮這個字段了

2、分析乘客存活率與各單變量之間的關系

先看下全部樣本的存活率是多少：

				survived_rate = float(df['Survived'].sum()) / df['Survived'].count()
				print 'survived_rate: ',survived_rate

運行代碼輸出：survived_rate: 0.383838383838

【艙位】

再看下艙位和存活率之間的關系：

				x=[df[(df.Pclass==1)]['Pclass'].size,df[(df.Pclass==2)]['Pclass'].size,df[(df.Pclass==3)]['Pclass'].size]
				y=[df[(df.Pclass==1) & (df.Survived == 1)]['Pclass'].size,\
				df[(df.Pclass==2) & (df.Survived == 1)]['Pclass'].size, \
				df[(df.Pclass == 3) & (df.Survived == 1)]['Pclass'].size]
				print '1 Pclass number:' + str(x[0]) + '    ' + '1 Pclass survive:' + str(y[0]) + '    ' + '1 Pclass survive rat:', float(y[0]) / x[0]
				print '2 Pclass number:' + str(x[1]) + '    ' + '2 Pclass survive:' + str(y[1]) + '    ' + '2 Pclass survive rat:', float(y[1]) / x[1]
				print '3 Pclass number:' + str(x[2]) + '    ' + '3 Pclass survive:' + str(y[2]) + '    ' + '3 Pclass survive rat:', float(y[2]) / x[2]
				Pclass_survived_rate = (df.groupby(['Pclass']).sum() / df.groupby(['Pclass']).count())['Survived']
				Pclass_survived_rate.plot(kind='bar')
				plt.title('Pclass_survived_rate')
				plt.show()

輸出結果如下：

python 數據分析超簡單入門 : 項目實踐篇-36大數據

可以很清楚的看出，艙位與存活率之間的關系。三等艙的乘客們很慘

【性別】

可以再簡單看看性別的影響：

				Sex_survived_rate = (df.groupby(['Sex']).sum() / df.groupby(['Sex']).count())['Survived']
				Sex_survived_rate.plot(kind='bar')
				plt.title('Sex_survived_rate')
				plt.show()

【年齡】

數據集里面的年齡是一個數值型變量，先按照未處理的裸數據來繪圖

				Age_survived_rate=(df.groupby(['Age']).sum()/df.groupby(['Age']).count())['Survived']
				Age_survived_rate.plot()
				plt.title('Age_survived_rate')
				plt.show()

python 數據分析超簡單入門 : 項目實踐篇-36大數據

得出的結果特別難懂。

對于連續型數值變量，可以先做特征離散化，將年齡分布在各個年齡段中，效果就好多了呢。

這里引出了特征工程中的概念—離散化。

最近up主剛上了一屆特征工程的課，等待up主的課后筆記吧~

				age_clean_date=df[~np.isnan(df['Age'])] #去除年齡數據中的NaN
				ages=np.arange(0,81,5) #0~80歲，每5歲一段（年齡最大80歲）
				age_cut=pd.cut(age_clean_date.Age,ages)
				age_cut_grouped=age_clean_date.groupby(age_cut)
				age_Survival_Rate=(age_cut_grouped.sum()/age_cut_grouped.count())['Survived'] #計算每年齡段的幸存率
				age_Survival_Rate.plot(kind='bar')
				plt.title('Age_group_survived_rate')
				plt.show()

python 數據分析超簡單入門 : 項目實踐篇-36大數據

感興趣的小伙伴可以多嘗試幾個變量，看看能不能找到更有趣的結論哦~

3、分析乘客存活率與復合變量之間的關系

一個數據表象，往往是多個因素影響的結果，其中多個因素的影響力各不同（可以稍微聯想主成份分析的概念）。因此復合變量的分析也是必不可少的哦~

單變量中艙位和性別對存活率的影響都很大，up主好奇到底是哪一個主要決定了乘客能否登上救生船，因此就對艙位和性別整合為復合變量，做了分析。

				Pclass_Sex_survived_rate=(df.groupby(['Sex','Pclass']).sum()/df.groupby(['Sex','Pclass']).count())['Survived']
				Pclass_Sex_survived_rate.plot(kind='bar')
				plt.title('Pclass_Sex_survived_rate')
				plt.show()

python 數據分析超簡單入門 : 項目實踐篇-36大數據

結果發現三等艙的女性存活率高于一等艙的男性存活率。可見當時的紳士風度啊！

python 數據分析超簡單入門 : 項目實踐篇-36大數據

再想想當時的帥哥，美男們~~ 對不起我歪樓了。。。。。

4、挑選更有意思的分析角度，得出讓人信服的數據結論

對的，你沒看錯，up主自認得出的結論很淺顯，就不在這邊現眼了，大家各自表演吧~~

End.

轉載請注明來自36大數據（36dsj.com)： 36大數據 ? python 數據分析超簡單入門 : 項目實踐篇

隨意打賞

python進行數據分析 python 數據分析 python 大數據 python數據分析 python入門數據分析方法

神策數據接入 DeepSeek，AI 賦能數據分析與智能運營

砍柴網 ? 1分鐘前

在 AI 技術迅猛發展的浪潮下，神策數據正在加速推進人工智能在數據分析和智能運營領域的深度應用。近日，神策數據宣布全面體驗并接入 DeepSeek，為企業客戶帶來更加智能化、高效的數據分析與智能運營服務。這一舉措展現了神策數據在人工智能方向的探索決心。一、神策數據?+ AI，探索技術結合新可能 AI 技術的快速
我來數科：通過大數據與人工智能技術打造安全便捷的金融服務平臺

砍柴網 ? 3分鐘前

在金融科技加速變革下，風控體系成為金融機構發展的關鍵支撐。隨著監管政策趨嚴，個人信息保護、數據安全、機構合規性等要求不斷提升，促使行業進一步加強風控體系的構建與升級。我來數科作為深耕金融科技領域的平臺，始終走在風控技術前沿，以大數據和人工智能為核心，打造全方位的風險管理體系，為用
明略科技全域營銷分析平臺：實時數據智能洞察，AI助力敏捷營銷實效評估

砍柴網 ? 8天前

Gartner在發布的《2024年中國數據、分析和人工智能技術成熟度曲線》中,提及了復合型AI技術的創新應用潛力,認為這一技術將能夠提供更有效的方式以解決更廣泛業務問題。特別是在營銷技術領域,海量且多元異構的客戶數據來源讓企業在數據整合、實時分析、快速查詢以及深入洞察方面常常感到力不從心。
市場監管總局回應大數據殺熟

i黑馬 ? 3天前

3月5日，國家市場監督管理總局局長羅文表示，今年將著力優化監管方式方法，大力促進平臺經濟健康發展。當前，外賣騎手等新就業群體和消費者都反映，平臺企業存在三個問題。一是算法不透明，二是大數據殺熟，三是刷單炒信。針對上述問題，市場監管部門將積極配合有關部門，加強綜合治理，督促平臺企業提高算法透明度，優化算法規則，切實有力地
貴陽市大數據局舉辦貴陽貴安DeepSeek大模型專題培訓

數據觀 ? 4天前

為全面提升貴陽貴安數治能力和水平，建設更高水平的數字貴陽貴安，推動人工智能賦能在全省走前列、作表率。3月4日，貴陽市大數據局舉辦貴陽貴安DeepSeek大模型專題培訓，邀請貴州大數據集團云智事業部副總經理陸嘉達博士作“大模型DeepSeek的技術與應用”專題培訓。貴陽市大數據局副局長徐先文主持會議，各區（市、縣、開發區
白鴿在線攜手鹽城大數據集團以科技守護百姓財產安全

砍柴網 ? 6天前

信息化時代,電信網絡詐騙案件持續多發高發,手段日益復雜、新騙術層出不窮,給人民群眾的財產安全帶來了巨大威脅,加強反詐宣傳工作亟不可待。為守護百姓的“錢袋子”,近日, 白鴿在線聯合鹽城市大數據集團、鹽城市公安局鹽南分局及華農財險,共同發起“數智反詐守護幸福”大型反詐公益項目 ,攜手構建“政企保
醫渡科技六度蟬聯醫療大數據企業榜首，以“YiduCore+DeepSeek”重構醫療智能生態

砍柴網 ? 6天前

近日,《2024醫療大數據企業排行榜》發布,醫渡科技連續第六年摘得行業榜首桂冠,再次證明了其在中國醫療人工智能和大數據領域的優勢地位。該榜單由中國科學院主管的權威媒體《互聯網周刊》聯合德本咨詢、中國社會科學院信息化研究中心每年評選,具有極高的權威性和
加和科技受邀出席中國信通院“卓信大數據計劃”2025年度會議

砍柴網 ? 11天前

2025年2月21日，中國信通院“卓信大數據計劃”2025年度會議在北京召開。加和科技作為特邀參展商參會，與行業精英共同聚焦大模型時代的數據安全挑戰與機遇。自2021年啟動以來，“卓信大數據計劃”致力于構建數據安全基礎設施，完善保障體系，匯聚產業力量，推動應用創新。此次大
2025中國國際大數據產業博覽會年度主題征集公告

數據觀 ? 11天前

中國國際大數據產業博覽會（以下簡稱數博會），是全球首個以大數據為主題的國際性博覽會，由國家數據局主辦，貴州省人民政府承辦，經過十年積累沉淀，已經成為數據領域引領創新趨勢、展示行業成果、促進開放合作的重要載體。2025數博會籌備工作已啟動，為全方位展現本屆數博會國際性、權威性平臺形象，提高大眾參與度，現面向全社會公開征集
谷歌Gemini AI向免費版用戶開放文件上傳/分析功能

砍柴網 ? 27天前

2 月 15 日消息，谷歌 Gemini AI 已開始向免費版用戶開放文件上傳和分析功能，此前該功能僅向 Gemini Advanced 付費用戶提供。目前，該功能已在 Gemini 安卓應用和網頁版中上線，海外沒有訂閱 Gemini 的用戶現在也可以直接從設備本地或 Google Drive 谷歌云盤中應用程序上傳文
有數ChatBI正式接入DeepSeek大模型，讓數據分析更加智能高效

砍柴網 ? 29天前

近日，隨著 DeepSeek 爆火全球，網易數帆展現了敏捷的技術迭代能力，率先完成有數 ChatBI 與 DeepSeek 大模型的快速適配。作為領先的?AI 驅動型數據分析平臺，有數 ChatBI 核心能力源于兩大創新引擎的深度融合：一是自主研發的 NL2SQL 私有化模型，通過持續微調訓練實現企業級場景的高精度語義
2024 年中國數據中臺行業需求市場分析多因素驅動需求增長

砍柴網 ? 1月前

行業主要上市公司：阿里巴巴 ( 9988.HK ) 、騰訊控股?( 0700.HK ) 、用友網絡?( 600588.SH ) 、金蝶國際?( 0268.HK ) 、亞信科技 ?( 1675.HK ) 、浪潮數字企業 ( 0596.HK ) 、普元信息?( 688118.SH ) 、星環科技 (
“浪潮卓數大數據”完成B輪融資

i黑馬 ? 1月前

據浪潮卓數消息，“浪潮卓數大數據”宣布完成B輪融資。本輪融資由中泰創投領投，東營財金、浪潮產投等機構跟投，公司估值較上輪增長167%。本次融資將助力浪潮卓數大數據進一步加強研發投入、引進優秀人才、塑造產業優勢，加快科技創新成果轉化。文章評價匿名用戶發布發布
酷克數據榮膺多項行業大獎，引領大數據與計算產業創新發展

砍柴網 ? 1月前

新年伊始，酷克數據在大數據與計算產業領域捷報頻傳，榮譽入選第八屆大數據“星河(Galaxy)”數據庫潛力案例，更被權威收錄入《2024年度全球計算產業案例匯編(GMVPS)》，彰顯實力。同時，酷克數據還榮膺IT168頒發的2024年度技術卓越獎，以及InfoQ授予的2024年度技術生態構建品牌殊榮。這一系列輝煌榮譽，不
諸葛io助力城商行打造用戶行為分析平臺，斬獲兩項金融數字化大獎

砍柴網 ? 2月前

諸葛智能與某城商行強強聯合，共同打造「新一代手機銀行用戶行為分析平臺」，該平臺以出色的實踐方案和卓越的應用效果，成功斬獲了兩項金融科技領域案例大獎，彰顯出在行業內強大的影響力和成熟的技術應用實力。銀行標桿案例認可愛分析—金融數字化最佳實踐案例為表彰在金融數字化浪
云知聲 Atlas 超算平臺入選《分布式統一大數據虛擬文件系統Alluxio原理、技術與實踐》

砍柴網 ? 2月前

在大數據與人工智能領域日新月異的今天，高效、可靠的分布式文件系統及其計算加速方案已成為眾多企業和科研機構關注的焦點。云知聲的Atlas超算平臺以其“基于Fluid + Alluxio的計算加速實踐”，榮耀入選《分布式統一大數據虛擬文件系統Alluxio原理、技術與實踐》。這一榮譽不僅彰顯了云知聲在技術創新方面的實力，也
NeuroBlade在亞馬遜（Amazon） EC2 F2 實例上加速下一代數據分析

砍柴網 ? 2月前

2024年12月26日，中國北京? –數據分析加速領域的領導者NeuroBlade宣布其已經與亞馬遜云科技（AWS）最新發布的Amazon?Elastic Compute Cloud (Amazon EC2)?F2實例實現集成，該實例采用了AMD FPGA與EPYC CPU技術。此次合作通過
2024 年中國數據中臺發展現狀分析實現數據價值化的重要工具

砍柴網 ? 2月前

行業主要上市公司：阿里巴巴 ( 9988.HK ) 、騰訊控股?( 0700.HK ) 、用友網絡?( 600588.SH ) 、金蝶國際?( 0268.HK ) 、亞信科技 ?( 1675.HK ) 、浪潮數字企業 ( 0596.HK ) 、普元信息?( 688118.SH ) 、星
打破數據孤島，廣告跨域效果分析與人群包再營銷的神奇工具來了！

砍柴網 ? 3月前

隨著線上業務和收入的持續增長,電商銷售已經成為眾多品牌的核心業務板塊。同時,用戶在眾多APP間的頻繁切換使用,也推動品牌主適應多渠道、碎片化的營銷傳播環境。在這樣的市場背景下,品牌和電商團隊在工作中經常面臨如何平衡品牌廣告投入與電商增長的挑戰。作為營銷負責人,確保廣告預算
品高軟件入選《2024愛分析·數據要素×廠商全景報告》

砍柴網 ? 3月前

近日，中國數字化市場專業服務平臺愛分析正式發布《2024愛分析·數據要素×廠商全景報告》。品高軟件憑借在數據要素領域過硬的技術實力和多年積累的行業信息化服務經驗，成功入選為區域協同治理以及可信數據空間兩個細分領域的代表廠商。本次報告中，愛分析從技術架構角度，將數據要素×市場分為兩大層次：技術支撐層和行業應用層。旨在通過