<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給skura
      發送

      0

      如何利用高斯混合模型建立更好、更精確的集群?

      本文作者: skura 2019-12-07 19:04
      導語:高斯混合模型的入門指南

      高斯混合模型是一種強大的聚類算法。本文將帶你了解高斯混合模型的工作原理以及如何在 Python 中實現它們,我們還將討論 k-means 聚類算法,看看高斯混合模型是如何對它進行改進的。

      我真的很喜歡研究無監督的學習問題。相對于一個有監督的學習問題來說,它們提供了一個完全不同的挑戰——有更多的空間來試驗我的數據。難怪機器學習領域的大多數發展和突破都發生在無監督學習領域。

      無監督學習中最流行的技術之一是聚類。這是一個概念且很容易掌握,我們通常在機器學習的早期學習它。我相信你已經經歷甚至參與過客戶細分、市場籃分析等項目。

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯混合模型

      但問題是——集群有很多層。它不僅限于我們之前學習的基本算法。它是一種強大的無監督學習技術,我們可以在現實世界中準確無誤地使用它。

      高斯混合模型是我在本文中要討論的一種聚類算法。

      想預測你最喜歡的產品的銷量嗎?想通過不同客戶群體的視角來理解客戶流失?不管是什么用例,你都會發現高斯混合模型非常有用。

      在本文中,我們將采用自下而上的方法。因此,我們將首先學習聚類的基礎知識,包括快速回顧 k-means 算法。然后,我們將深入研究高斯混合模型的概念并用 Python 實現它們。

      如果你對集群和數據科學還不熟悉,我建議您學習以下綜合課程:Applied Machine Learning

      本文將分為以下幾個部分:

      • 聚類簡介

      • k-means 聚類簡介

      • k-means 聚類的缺點

      • 高斯混合模型簡介

      • 高斯分布

      • 什么是期望最大化?

      • 高斯混合模型中的期望最大化

      聚類簡介

      在我們開始討論高斯混合模型的本質之前,讓我們快速更新一些基本概念。

      注意:如果你已經熟悉了聚類背后的思想以及 k-means 聚類算法的工作原理,可以直接跳到第四節「高斯混合模型簡介」。

      因此,讓我們從正式定義開始:

      聚類是指根據相似數據點的屬性或特征將它們分組在一起。

      例如,如果我們有一組人的收入和支出,我們可以將他們分為以下幾類:

      • 高收入,高消費

      • 高收入,低消費

      • 低收入,低消費

      • 低收入,高消費

      如何利用高斯混合模型建立更好、更精確的集群?

      這些組都分別擁有一個具有相似特征,這在向組投遞相關方案/產品時非常有用。想想信用卡、汽車/房產貸款是不是這樣的?簡單地說:

      集群背后的思想是將數據點分組在一起,這樣每個單獨的集群都擁有最相似的數據點。

      有各種各樣的聚類算法。最流行的聚類算法之一是 k-means。讓我們了解 k-means 算法是如何工作的,以及該算法可能達不到預期的情況。

      k-means 聚類簡介

      k-means 聚類是一種基于距離的聚類算法。這意味著它試圖將最近的點分組以形成一個簇。

      讓我們仔細看看這個算法是如何工作的。這將幫助你了解高斯混合模型是如何在本文后面發揮作用的。

      因此,我們首先定義要將總體劃分為的組的數量——這是 k 的值。根據需要的簇或組的數量,隨機初始化 k 個質心。

      然后將數據點指定給最近的質心,形成一個簇。然后更新質心并重新分配數據點。這個過程不斷重復,直到質心的位置不再改變。

      這里有個視頻代表了初始化和更新集群的整個過程,其中,群集數被指定為 10:https://thumbs.gfycat.com/SoftEnragedHypsilophodon-mobile.mp4

      如何利用高斯混合模型建立更好、更精確的集群?

      注意:這是 k-means 聚類的簡要概述,對于本文來說已經足夠了。如果你想深入研究 k-means 算法的工作,這里有一個深入的指南:The Most Comprehensive Guide to k-means you’ll Ever Need !

      k-means 聚類的缺點

      k-means 聚類概念聽起來不錯,對吧?它易于理解,相對容易實現,并且可以應用于很多用例中。但也有一些缺點和局限性需要我們注意。

      讓我們以我們在上面看到的同樣的收支例子為例。k-means 算法似乎運行得很好,但是,如果你仔細觀察,你會發現所有創建的簇都是圓形的。這是因為集群的質心是使用平均值迭代更新的。

      現在,考慮下面的例子,其中點的分布不是圓形的。如果我們對這些數據使用 k-means 聚類,你認為會發生什么?它仍然試圖以循環方式對數據點進行分組。那不太好!k-means 無法識別正確的集群:

      如何利用高斯混合模型建立更好、更精確的集群?

      k-means 高斯混合模型

      因此,我們需要一種不同的方法來將集群分配給數據點。因此,我們不再使用基于距離的模型,而是使用基于分布的模型。

      高斯混合模型簡介

      高斯混合模型(GMMs)假設存在一定數量的高斯分布,并且每個分布代表一個簇。因此,高斯混合模型傾向于將屬于單一分布的數據點組合在一起。

      假設我們有三個高斯分布——GD1、GD2 和 GD3。它們分別具有一定的均值(μ1,μ2,μ3)和方差(σ1,σ2,σ3)。對于給定的一組數據點,我們的 GMM 將識別屬于這些分布的每個數據點的概率。

      等等,概率?

      對的!高斯混合模型是一種概率模型,采用軟聚類方法對不同的聚類點進行分布。我再舉一個例子,讓大家更容易理解。

      在這里,我們有三個集群,用三種顏色表示——藍色、綠色和青色。讓我們以紅色突出顯示的數據點為例。該點成為藍色團簇一部分的概率為 1,而成為綠色或青色團簇一部分的概率為 0。

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯混合模型

      現在,考慮另一個點-介于藍色和青色之間(在下圖中突出顯示)。這個點是綠色簇的一部分的概率是 0,對吧?這屬于藍色和青色的概率分別為 0.2 和 0.8。 

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯混合模型使用軟聚類技術將數據點分配給高斯分布。你肯定想知道這些分布是什么,所以讓我在下一節解釋一下。

      高斯分布

      我相信你熟悉高斯分布(或正態分布)。它有一個鐘形曲線,數據點圍繞平均值對稱分布。

      下圖有一些高斯分布,平均值(μ)和方差(σ2)不同。記住,σ 值越高,價差越大:

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯混合模型(來源:維基百科)

      在一維空間中,高斯分布的概率密度函數由下式給出:

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯分布

      其中μ是平均值,σ2 是方差。

      但這只適用于單個變量。在兩個變量的情況下,我們將得到如下所示的三維鐘形曲線,而不是二維鐘形曲線:

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯混合模型

      概率密度函數由以下公式給出:

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯分布

      其中 x 是輸入向量,μ是 2D 平均向量,∑ 是 2×2 協方差矩陣。協方差現在可以定義曲線的形狀。我們也可以對 d 維進行推廣。

      因此,這個多元高斯模型將 x 和 μ 作為長度 d 的向量,∑ 將是一個 d×d 協方差矩陣。

      因此,對于具有 d 個特征的數據集,我們將得到 k 個高斯分布(其中 k 相當于簇的數量)的混合,每個都有一定的平均向量和方差矩陣。但是,如何分配每個高斯分布的均值和方差值?

      這些值用一種叫做期望最大化(EM)的技術來確定。在深入研究高斯混合模型之前,我們需要了解這項技術。

      什么是期望最大化?

      好問題!

      期望最大化(EM)是尋找正確模型參數的統計算法。當數據缺少值時,或者換句話說,當數據不完整時,我們通常使用 EM。

      這些缺失的變量稱為潛在變量。當我們在研究一個無監督學習問題時,我們認為目標(或簇數)是未知的。

      由于缺少這些變量,很難確定正確的模型參數。這樣想吧——如果你知道哪個數據點屬于哪個集群,你就很容易確定平均向量和協方差矩陣。

      由于我們沒有潛在變量的值,期望最大化試圖利用現有數據來確定這些變量的最優值,然后找到模型參數。基于這些模型參數,我們返回并更新潛在變量的值。

      廣義上,期望最大化算法有兩個步驟:

      • E-step:在這個步驟中,可用的數據用于估計(猜測)丟失變量的值

      • M-step:根據 E-step 中生成的估計值,使用完整的數據更新參數

      期望最大化是許多算法的基礎,包括高斯混合模型。那么,GMM 如何使用 EM 的概念,以及如何將其應用于給定的點集?讓我們看看!

      高斯混合模型中的期望最大化

      讓我們用另一個例子來理解這一點。我想讓你在讀的時候自己也思考以下。這將幫助你更好地理解我們在說什么。

      假設我們需要分配 k 個簇。這意味著存在 k 個高斯分布,平均值和協方差值為 μ1,μ2 ... μk 和 ∑1,∑2 ... ∑k。此外,還有一個用于分布的參數,用于定義分布的點數。或者換句話說,分布密度用 ∏i 表示。

      現在,我們需要找到這些參數的值來定義高斯分布。我們已經決定了簇的數量,并隨機分配了均值、協方差和密度的值。接下來,我們將執行 E-step 和 M-step!

      E-step:

      對于每個點 Xi,計算它屬于簇/分布 C1、C2、…CK 的概率。使用以下公式完成此操作:

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯混合模型

      該值將在將點指定給右簇時為高,否則為低。

      M-step:

      完成 E-step 后,我們返回并更新 ∏,μ 和 ∑ 值。更新方式如下:

      • 新密度由群集中的點數與總點數的比率定義:

      如何利用高斯混合模型建立更好、更精確的集群?

      高斯混合模型

      • 平均值和協方差矩陣根據分配給分布的值進行更新,與數據點的概率值成比例。因此,具有更高概率成為該分布一部分的數據點將貢獻更大的部分:

        如何利用高斯混合模型建立更好、更精確的集群?

      高斯混合模型

      基于此步驟生成的更新值,我們計算每個數據點的新概率并迭代更新值。為了最大化對數似然函數,重復該過程。實際上我們可以說:

      k-means 只考慮更新質心的均值,而 GMM 則考慮數據的均值和方差!

      結語

      這是高斯混合模型的入門指南。我在這里的目的是向你介紹這種強大的聚類技術,并展示它與傳統算法相比是多么高效。

      我鼓勵你參加一個集群項目并在那里嘗試 GMMs。這是學習和理解一個概念的最好方法——相信我,你會意識到這個算法有多有用!

      via:https://www.analyticsvidhya.com/blog/2019/10/gaussian-mixture-models-clustering/ 

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      如何利用高斯混合模型建立更好、更精確的集群?

      分享:
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 69精品在线观看| 6080yyy午夜理论片中无码 | 亚洲色成人网站www永久| 国产人成亚洲第一网站在线播放| 亚洲制服中文字幕一区二区| 97免费人妻在线视频| 国产网曝门| 亚洲AV成人无码久久精品色欲| 韩国三级+mp4| 男人的天堂av网站一区二区| 熟女俱乐部五十路六十路 | 国产午夜福利在线观看播放| 欧美成人秋霞久久aa片| 五寨县| 40岁成熟女人牲交片20分钟| 国产区h| 色一情一乱一伦一区二区三欧美| 蜜桃视频在线入口www| 精品av国产一区二区三区| 日本不卡一区二区三区| 日韩一区在线中文字幕| 亚洲一区av无码少妇电影| 台湾佬久久| 无码人妻丰满熟妇奶水区码| 五月婷婷丁香| 成人AV一区二区三区| 高潮迭起av乳颜射后入| 天天躁日日躁狠狠躁中文字幕| 人妻少妇不满足中文字幕| 日本一卡二卡不卡视频查询| 各种少妇正面着bbw撒尿视频 | 无码人妻精品中文字幕免费东京热 | 免费精品美女久久久久久久久久 | 久久国产乱子精品免费女| 奇米影视777四色米奇影院| 五月天婷婷一本到伊人| 国产精品视频一区二区噜噜| 新源县| 亚洲综合色成在线播放| 成人午夜无码福利视频| 国产成人无码午夜视频在线观看|