<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能開發(fā)者 正文
      發(fā)私信給skura
      發(fā)送

      0

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      本文作者: skura 2020-02-18 11:35
      導(dǎo)語(yǔ):數(shù)據(jù)分析實(shí)戰(zhàn)案例,含代碼

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      CDC 發(fā)布在 Unsplash 上的照片              

      一種最初在中國(guó)城市武漢被發(fā)現(xiàn)的病毒,現(xiàn)在已經(jīng)傳播到世界上十幾個(gè)國(guó)家,引發(fā)了前所未有的健康和經(jīng)濟(jì)危機(jī)。              

      世界衛(wèi)生組織(簡(jiǎn)稱世衛(wèi)組織)宣布武漢冠狀病毒爆發(fā)為「國(guó)際關(guān)注的公共衛(wèi)生突發(fā)事件」。              

      在本文中,我們將簡(jiǎn)要回顧當(dāng)前的危機(jī),然后深入研究 Kaggle 的「Novel Corona Virus 2019 Dataset」。我創(chuàng)建了一個(gè) GitHub repo,以供大家發(fā)表自己的見解。              

      什么是冠狀病毒?              

      據(jù)世衛(wèi)組織稱,冠狀病毒(CoV)是一個(gè)病毒大家族,它們引起的疾病很多,包括普通感冒和更嚴(yán)重的疾病,如中東呼吸綜合征(MERS-CoV)和嚴(yán)重急性呼吸綜合征(SARS-CoV)。              

      新型冠狀病毒(nCoV)是一種新的病毒株,此前尚未被人類發(fā)現(xiàn)。最近爆發(fā)的病毒被稱為 2019-nCoV 或武漢冠狀病毒。              

      我們面臨的危機(jī)              

      此前,據(jù)《紐約時(shí)報(bào)》的一篇報(bào)道,「確診感染人數(shù)上升至 37198 人」,「中國(guó)死亡人數(shù)上升至811人,超過(guò)了非典疫情造成的死亡人數(shù)」。              

      中國(guó)有 16 個(gè)城市,超過(guò) 5000 萬(wàn)人口,正處于封鎖狀態(tài)。全球各地的航空公司都取消了往返中國(guó)的航班。一些國(guó)家正通過(guò)特別航班疏散本國(guó)公民,并進(jìn)一步對(duì)他們實(shí)施嚴(yán)格的隔離。              

      更糟糕的是,中國(guó)股市暴跌,全球股市受到了影響。一些分析人士預(yù)測(cè),疫情對(duì)全球經(jīng)濟(jì)構(gòu)成的威脅,有可能引發(fā)深遠(yuǎn)的政治后果。              

      數(shù)據(jù)集簡(jiǎn)介              

      約翰霍普金斯大學(xué)收集了「Novel Corona Virus 2019 Dataset」,并將該數(shù)據(jù)集發(fā)表在 Kaggle 上。該小組從世界衛(wèi)生組織、當(dāng)?shù)丶部刂行暮兔襟w等不同渠道收集了這些數(shù)據(jù)。他們還創(chuàng)建了一個(gè)實(shí)時(shí)儀表盤來(lái)監(jiān)控病毒的傳播

      免責(zé)聲明:請(qǐng)注意,數(shù)據(jù)集沒有更新,因此下面記錄的結(jié)果可能不是當(dāng)前現(xiàn)狀的真實(shí)反映。              

      導(dǎo)入庫(kù)并加載數(shù)據(jù)

      import numpy as np
      import pandas as pd
      import matplotlib.pyplot as plt
      import seaborn as sns


      #reading data from the csv file
      data= pd.read_csv("/kaggle/input/novel-corona-virus-2019-dataset/2019_nCoV_data.csv")

      理解數(shù)據(jù)集             

      讓我們首先對(duì)數(shù)據(jù)集有一個(gè)基本的了解,并在必要時(shí)執(zhí)行數(shù)據(jù)清洗操作。

      #checking the number of rows and columns
      data.shape

      輸出:(770,8)。數(shù)據(jù)集中有 8 列共 770 個(gè)觀測(cè)值。

      #checking the top 5 rows
      data.head()

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      列的名稱顯而易見。第一列「Sno」看起來(lái)像行號(hào),不向分析添加任何值。第五列「Last Update」顯示的值與「Date」列相同,但少數(shù)情況下,這些數(shù)字稍后會(huì)更新。在繼續(xù)之前,我們先刪除這兩列。

      #dropping the 1st and 5th column
      data.drop("Sno", axis=1, inplace=True)
      data.drop("Last Update", axis=1, inplace=True)


      #getting a summary of the columns
      data.info()

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      除「Province/State」外,所有列都沒有空值。進(jìn)一步分析顯示,英國(guó)、法國(guó)和印度等國(guó)的省份名稱都不見了。在這種情況下,我們不能假設(shè)或填充任何主列表中缺少的值。讓我們轉(zhuǎn)到數(shù)字列。

      data.describe()

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      describe() 方法返回?cái)?shù)據(jù)幀中數(shù)值列的一般統(tǒng)計(jì)信息。              

      這個(gè)輸出可以得到的一個(gè)直接結(jié)論是,數(shù)據(jù)已經(jīng)累積報(bào)告,即任何一天報(bào)告的病例數(shù)包括先前報(bào)告的病例。死亡的最大值是 479,這與幾天前媒體的報(bào)道(在這一數(shù)據(jù)公布時(shí))是一致的。

      #checking for duplicate rows
      duplicate_rows=data.duplicated(['Country','Province/State','Date'])
      data[duplicate_rows]

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      duplicated() 方法返回一個(gè)布爾序列,然后將其用作原始數(shù)據(jù)幀的掩碼。結(jié)果顯示沒有兩個(gè)記錄具有相同的國(guó)家、州和日期。因此我們可以得出結(jié)論,數(shù)據(jù)集中的所有觀測(cè)值都是唯一的。

      #listing all the countries where the virus has spread to
      country_list=list(data['Country'].unique())
      print(country_list)
      print(len(country_list))

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      數(shù)據(jù)顯示,該病毒已經(jīng)傳播到亞洲、歐洲和美洲的 32 個(gè)國(guó)家。為了進(jìn)行分析,我們可以合并「China」和「Mainland China」的數(shù)據(jù)。

      #merging China and Mainland China
      data.loc[data['Country']=='Mainland China','Country']='China'

      在開始之前,讓我們檢查一下 [Date] 欄中的日期。

      print(list(data['Date'].unique()))
      print(len(list(data['Date'].unique())))

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      數(shù)據(jù)似乎每天都在不同的時(shí)間更新。我們可以從時(shí)間戳中提取日期并將其用于進(jìn)一步的分析。這將有助于我們保持日期一致。

      #converting 'Date' column to datetime object
      data['Date'] = pd.to_datetime(data['Date'])


      #extracting dates from timestamps
      data['Date_date']=data['Date'].apply(lambda x:x.date())

      讓我們了解一下疫情對(duì)每個(gè)國(guó)家的影響。

      #getting the total number of confirmed cases for each country


      df_country=data.groupby(['Country']).max().reset_index(drop=None)
      print(df_country[['Country','Confirmed','Deaths','Recovered']])

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      由于數(shù)據(jù)是累積的,所以我們需要使用 groupby() 和 max() 函數(shù),以獲得每個(gè)國(guó)家報(bào)告的最大數(shù)目。如果我們使用 sum(),則會(huì)導(dǎo)致重復(fù)計(jì)算。              

      數(shù)據(jù)證實(shí),迄今為止,中國(guó)報(bào)告的病例最多,481 例死亡病例幾乎全部來(lái)自中國(guó)。但另一方面,中國(guó)也有 522 人康復(fù),其次是泰國(guó),有 7 人康復(fù)。

      #preparing data for a time-series analysis


      df_by_date=data.groupby(['Date_date']).sum().reset_index(drop=None)


      df_by_date['daily_cases']=df_by_date.Confirmed.diff()
      df_by_date['daily_deaths']=df_by_date.Deaths.diff()
      df_by_date['daily_recoveries']=df_by_date.Recovered.diff()
      print(df_by_date)

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      我們已經(jīng)完成了數(shù)據(jù)預(yù)處理步驟,接下來(lái)讓我們繼續(xù)進(jìn)行數(shù)據(jù)可視化,以尋找新的趨勢(shì)和模式。              

      數(shù)據(jù)可視化              

      對(duì)于數(shù)據(jù)可視化,我們將使用兩個(gè)強(qiáng)大的 Python 庫(kù):Matplotlib 和 Seaborn。Matplotlib 是大多數(shù)數(shù)據(jù)科學(xué)家使用的默認(rèn)二維可視化庫(kù)。Seaborn 建立在 matplotlib 之上,有助于構(gòu)建更好看、更復(fù)雜的可視化效果,如熱圖就是用這個(gè)庫(kù)繪制的。              

      讓我們根據(jù)從數(shù)據(jù)的不同方面創(chuàng)建五個(gè)可視化圖。              

      1.一段時(shí)間內(nèi)的確診病例數(shù)

      #plotting a bar chart of confirmed cases over time


      sns.axes_style("whitegrid")


      sns.barplot(
      x="Date_date",
      y="Confirmed", 

      data=data.groupby(['Date_date']).sum().reset_index(drop=None)
      )


      plt.xticks(rotation=60)
      plt.ylabel('Number of confirmed cases',fontsize=15)
      plt.xlabel('Dates',fontsize=15)

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      2.死亡率與康復(fù)率

      #plotting two line plots for deaths and recoveries respectively


      plt.plot('date_updated', 'Deaths', 

      data=data.groupby(['date_updated']).sum().reset_index(drop=None), color='red')


      plt.plot('date_updated', 'Recovered', 

      data=data.groupby(['date_updated']).sum().reset_index(drop=None), color='green')


      plt.xticks(rotation=60)
      plt.ylabel('Number of cases',fontsize=15)
      plt.xlabel('Dates',fontsize=15)
      plt.legend()
      plt.show()

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      3.除中國(guó)外,受影響最嚴(yán)重的 10 個(gè)國(guó)家

      #We know that China is the most affected country by a large margin, 

      #so lets create a bar plot to compare countries other than China


      #increasing the figure size
      plt.rcParams['figure.figsize']=(15,7)


      sns.barplot(
      x="Country",
      y="Confirmed",
      data=df_country[df_country.Country!='China'].nlargest(10,'Confirmed'),
      palette=sns.cubehelix_palette(15, reverse=True)
      )


      plt.ylabel('Number of cases',fontsize=15)
      plt.xlabel('Countries',fontsize=15)
      plt.xticks(fontsize=13)
      plt.yticks(fontsize=13)

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      4.死亡率和時(shí)間的關(guān)系

      #The mortality rate, at any point in time, can be roughly calculated 

      #by dividing the number of deaths by the number of confirmed cases


      df_by_date['mrate']=df_by_date.apply(lambda x: x['Deaths']*100/(x['Confirmed']), axis=1)


      plt.plot('Date_date','mrate',data=df_by_date, color='red')
      plt.show()

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      5.中國(guó)十大受災(zāi)最重的省份

      #creating a separate dataframe for provinces


      df_province=data[data['Country']=='China'].groupby(['Province/State']).max().reset_index(drop=None)


      #selecting 10 most affected provinces
      df_province=df_province.nlargest(10,'Confirmed')


      df_province=df_province[['Province/State','Deaths','Recovered']]


      #for multi-bar plots in seaborn, we need to melt the dataframe so 

      #that the the deaths and recovered values are in the same column
      df_province= df_province.melt(id_vars=['Province/State'])

      sns.barplot(
      x='Province/State',
      y='value',
      hue='variable',
      data=df_province
      )


      plt.xlabel('Provinces',fontsize=15)
      plt.ylabel('Number of cases',fontsize=15)

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      可視化結(jié)果分析              

      1. 自 1 月 28 日以來(lái),每天報(bào)告的病例數(shù)量增加了近250%。2 月 4 日?qǐng)?bào)告的病例數(shù)為 3915 例。這表明該病毒具有高度的傳染性,正在迅速傳播。              

      2. 在第一周,死亡率高于康復(fù)率。自 1 月 31 日以來(lái),康復(fù)率迅速上升,并呈現(xiàn)出積極的趨勢(shì)。2 月 4 日有 255 人康復(fù),而死亡人數(shù)為 66 人。隨著越來(lái)越多的人了解癥狀并及時(shí)尋求藥物治療,康復(fù)率將繼續(xù)提高。              

      3. 與在地理上和中國(guó)位置相近的國(guó)家,如泰國(guó)、日本和新加坡,報(bào)告的病例比其他亞洲和歐洲國(guó)家多。德國(guó)是一個(gè)例外,其擁有的病例在歐洲最多。              

      4. 死亡率從未超過(guò) 3%,正在逐漸下降到 2%。未來(lái)幾周更多的康復(fù)病例可能會(huì)進(jìn)一步降低這一數(shù)字。

      5. 中國(guó)湖北省是此次疫情的中心,報(bào)告的病例明顯多于其他所有省份的總和。有些省份沒有死亡病例,所有受感染的病人都康復(fù)了。              

      結(jié)論              

      分析顯示,武漢冠狀病毒的傳播速度驚人。目前,至少 811 人在此次疫情中死亡,超過(guò) 7 年前非典爆發(fā)時(shí)報(bào)告的 774 人死亡人數(shù)。我祈禱并希望病毒能盡快得到控制。    

      via:https://towardsdatascience.com/a-data-scientists-perspective-on-the-wuhan-coronavirus-4d1110446478

      雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng) 

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      用 Python 對(duì)新冠病毒做數(shù)據(jù)分析,我們得出哪些結(jié)論?

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請(qǐng)?zhí)顚懮暾?qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說(shuō)
      主站蜘蛛池模板: 精品综合久久久久久8888| 国产精品漂亮美女在线观看| av无码免费岛国动作片| 康定县| 蜜臀av人妻国产精品建身房 | 自拍偷自拍亚洲精品熟妇人| 日韩欧美中文字幕公布| 人妻系列成人资源大全| 欧美成人www免费全部网站| 野外做受三级视频| 97久久精品无码一区二区天美| 色色狠狠| 久久久精品456亚洲影院| av女人的天堂| 精品秘?无码人妻| 久久精品国产免费观看频道| 91亚洲精品第一| 亚洲色小说| 中文无码日本一级A片久久影视| 成人亚洲区无码区在线点播| 精品伊人久久久大香线蕉欧美| 麻豆国产原创视频在线播放| 少妇的丰满3中文字幕| 中文字幕人妻中文AV不卡专区 | a在线视频v视频| 城口县| 国自产拍偷拍精品啪啪一区二区| www.91国产| 亚洲国产高清在线观看视频| 全球熟女AV最大导航| 色噜噜狠狠色综合成人网| 欧美成人www免费全部网站| 996久久国产精品线观看导航| 国精品91人妻无码一区二区三区| 日韩有码中文字幕国产| 亚洲熟女综合一区二区三区| 亚洲精品一区久久久久久 | 欧美日韩精品一区二区三区高清视频 | 曰韩一级| 国产成人小视频| 久久精品亚洲|