用在數據科學上的 Python：你可能忘記的 8 個概念

本文作者： AI研習社-譯站

2018-07-23 09:36

導語：如果不能有效的管理和整合，過度依賴網上的資源會阻擋我們長期進步。

雷鋒網 AI 研習社按：本文為雷鋒網字幕組編譯的技術博客，原標題 Python for Data Science: 8 Concepts You May Have Forgotten，作者為 Conor Dewey。

翻譯 | 龐有振、黃中杰整理 | 孔令雙

問題

如果你在編程的時候發現自己一遍又一遍的搜索同一個問題、概念或者語法，那么你并不孤單。

我自己也經常這樣。

雖然在 StackOverflow 和其他資源網站搜索很正常，但是它對你的好處比較小，并且會增加你理解這門語言的困難。

我們生活在看起來有無限信息和無窮免費資源的時代，似乎搜索一下就把問題解決了。然而，這可能既是祝福也是詛咒。如果不能有效的管理和整合，過度依賴這些資源會阻擋我們長期進步。

用在數據科學上的 Python：你可能忘記的 8 個概念

來源：xkcd

我發現自己有幾次從論壇上復制代碼并修改，而不是花時間去學習和鞏固我下次可能遇見的知識點。

這個方法比較懶。雖然這個方法可能是短期阻力比較小的一個，但是這最終會傷害你的成長、效率和回想語法的能力。

目標

最近我在 Udemy 通過了一個名為「數據科學和機器學習中的 Python」的在線課程。通過這一系列的課程，我整理了一些我在 Python 數據分析中所忽視的語法和概念。

為了鞏固我對這些理念的理解和便于你們在 StackOverFlow 進行搜索，這里我整理出了我在使用 Python，Numpy，Pandas 中的一些知識點。

對于每一個知識點我都給出了簡短的描述和例子。另外，我也給出了視頻和其他的資料的鏈接，這些有助于加深這些知識點的理解。

列表推導式

在寫循環的時候，每次定義一堆的列表是相當無聊的。幸運的是，Python 內置了一種名為列表推導式的方法，這種方法僅僅使用一行代碼就可以解決這個問題。列表推導式剛開始對你來說可能有些困難，但是你一旦熟悉，你就會經常使用。

用在數據科學上的 Python：你可能忘記的 8 個概念

來源: Trey Hunner

下面的第一個例子是求每一個元素平方的的普通寫法，第二個是列表推導式的寫法。

x = [1,2,3,4]
out = []
for item in x:
out.append(item**2)
print(out)[1, 4, 9, 16]
# vs.
x = [1,2,3,4]
out = [item**2 for item in x]
print(out)[1, 4, 9, 16]

Lambda 函數

有些函數只需要用幾次就需要定義一個新函數，你是否對此厭煩呢？lambda 函數可以解決這個問題！Lambda 函數在 Python 中通常被用來構建應用次數比較少的的匿名函數。也就是讓你構建一個了不帶名字的函數。

Lambda 函數的基本語法如下：

lambda arguments: expression

普通函數能做的，Lambda 函數也都能做，只要它們能夠寫成一行。下面這個簡單的例子和視頻能夠更好的讓你理解 Lambda 函數的強大之處。

double = lambda x: x * 2
print(double(5))
10

Map 函數與 Filter 函數

當你掌握了 Lambda 函數，然后將 Lambda 函數和 map，filter 函數一起使用，你會發現威力巨大。具體的說，map 函數通過對列表中的每一個元素進行操作，將列表轉換成一個新的列表。在下面的這個例子中，map 函數將每一個元素乘以 2，變成一個新的元素。注意這里的 list 函數只是簡單的將輸出結果轉化為 list 類型。

# Map
seq = [1, 2, 3, 4, 5]
result = list(map(lambda var: var*2, seq))
print(result)[2, 4, 6, 8, 10]

Filter 函數類似于 map 函數，但是 filter 函數通過比較每一個元素是否為真從原始列表中抽取子集。

# Filter
seq = [1, 2, 3, 4, 5]
result = list(filter(lambda x: x > 2, seq))
print(result)[3, 4, 5]

Python: Lambda, Map, Filter, Reduce Functions ：

https://youtu.be/cKlnR-CB3tk

Arange 函數和 Linspace 函數

快速創建簡單的 NumPy 數組，使用 arange 和 linspace 函數最合適不過了。它們都有各自特定的功能，但在這里使用（不是使用范圍）在于其產生的 NumPy 數組，對于數據科學通常更容易操作。

Arange 函數，根據 start 和 stop 指定的范圍以及 step 設定的步長，生成指定間隔的均勻間隔序列。除了開始值 start 和結束值 stop，還可以根據需要定義步長 step 或數據類型。這里需要注意，結束值是一個「截止」值，所以不會包含在生成的數組中。

# np.arange(start, stop, step)
np.arange(3, 7, 2)
array([3, 5])

Linspace 函數非常相似，但略有不同。它根據 start 和 stop 指定的范圍以及 num 設定的個數，生成指定個數的均勻間隔序列。因此，給定一個開始值 start 和結束值 stop，以及個數值 num，linspace 函數將在 NumPy 數組中均分這個范圍。這在數據可視化和繪圖時軸的聲明很有用。

# np.linspace(start, stop, num)
np.linspace(2.0, 3.0, num=5)
array([ 2.0, 2.25, 2.5, 2.75, 3.0])

什么是軸 Axis

使用 Pandas 刪除列或對 NumPy 矩陣元素求和時，你可能會遇到這個問題。如果沒有，那么之后也一定會遇到。下面給出刪除列的示例：

df.drop('Column A', axis=1)
df.drop('Row A', axis=0)

在我真正知道為什么需要聲明軸是什么之前，我編寫了無數次這行代碼。從上面的代碼中，你可以推斷出，如果對列進行操作需要將 axis 設置為 1，對行操作則將其設置為 0。但這是為什么呢？我喜歡探求原因，或者至少我記得這個：

df.shape
(# of Rows, # of Columns)

查看 Pandas 中 dataframe 的 shape 屬性會返回一個元組，其中第一個值表示行數，第二個值表示列數。想想 Python 中的索引方法——行為 0 列為 1，這與我們聲明軸的方法非常相似。很有意思，對吧？

How do I use the "axis" parameter in pandas?：

https://youtu.be/PtO3t6ynH-8

Concat 函數、Merge 函數和 Join 函數

如果你熟悉 SQL，那么這些函數方法可能會更容易理解。其實它們本質上都只是以一定方式合并 dataframe 的方法。哪種情況下用哪個最好很難說，所以讓我們再回顧一下。

Concat 函數可以在下方或旁邊合并一個或多個 dataframe（取決于如何定義軸）。

用在數據科學上的 Python：你可能忘記的 8 個概念

Merge 函數在作為主鍵的指定公共列上合并多個 dataframe。

用在數據科學上的 Python：你可能忘記的 8 個概念

Join 函數合并兩個 dataframe 的方法與 merge 函數類似。但是，它根據索引合并 dataframe，而不是某些指定列。

用在數據科學上的 Python：你可能忘記的 8 個概念

可以通過查看優秀的 Pandas 文檔，了解特定用法和更具體的示例，以及你可能遇到的一些特殊用法。

Youtube：

https://youtu.be/XMjSGGej9y8

Pandas 的 Apply 函數

你可以把 apply 函數想做地圖功能，但它只對 Pandas 的 DataFrame 或者更具體地說是 Series 進行操作。如果你不熟悉 Series，其實它在很多方面都與 NumPy 數組非常相似。

Apply 函數會對你指定的列或行中每個元素作用一個函數。你可以想象到這是多么有用，尤其式當你對整個 DataFrame 列進行歸一化和元素值操作，而不必進行循環。

Python Pandas Youtube 教學視頻：

https://youtu.be/P_q0tkYqvSk

Pivot Tables 數據透視表

最后但同樣重要的是數據透視表。如果你熟悉 Microsoft Excel，那你可能已經在某些方面聽說過數據透視表。Pandas 內置的 pivot_table 函數可以將電子表格樣式的數據透視表創建為 DataFrame。需要注意的是，數據透視表中的級別存儲在創建的 DataFrame 層次索引和列中。