1. <center id="eobhh"></center>

        无码少妇一区二区三区浪潮AV_亚洲精品无码久久_亚洲av中文无码乱人伦在线咪咕_成人无码国产一区二区_亚洲av无码av制服另类专区

        億信華辰

        連續(xù)3年穩(wěn)坐商務(wù)智能應(yīng)用榜首
        與此同時(shí),億信華辰在數(shù)據(jù)治理領(lǐng)域榮登五強(qiáng)
        首頁(yè)行業(yè)資訊數(shù)據(jù)分析

        數(shù)據(jù)科學(xué)家必會(huì)10個(gè)統(tǒng)計(jì)分析方法

        時(shí)間:2022-06-02來(lái)源:小億瀏覽數(shù):335

        無(wú)論你在數(shù)據(jù)科學(xué)中是何種立場(chǎng),你都無(wú)法忽視數(shù)據(jù)的重要性,數(shù)據(jù)科學(xué)家的職責(zé)就是分析、組織和應(yīng)用這些數(shù)據(jù)。 著名求職網(wǎng)站Glassdoor根據(jù)龐大的就業(yè)數(shù)據(jù)和員工反饋信息,將數(shù)據(jù)科學(xué)家排名為美國(guó)最佳的25個(gè)工作之首。雖然名頭不小,但毫無(wú)疑問(wèn),數(shù)據(jù)科學(xué)家所做的具體工作是不斷發(fā)展變化的。隨著機(jī)器學(xué)習(xí)等技術(shù)越來(lái)越普及,像深度學(xué)習(xí)這樣的新興領(lǐng)域在研究人員、工程師以及聘用他們的公司中成為新寵,數(shù)據(jù)科學(xué)家們將繼續(xù)在創(chuàng)新浪潮和技術(shù)進(jìn)步中嶄露頭角。 盡管具有強(qiáng)大的編程能力很重要,但數(shù)據(jù)科學(xué)家不需要都是軟件工程師(實(shí)際上會(huì)用Python你就可以上路了)。數(shù)據(jù)科學(xué)家處于編程、統(tǒng)計(jì)學(xué)和批判性思維的交叉區(qū)域。正如Josh Wills所說(shuō):“數(shù)據(jù)科學(xué)家是這樣一種人,他比任何程序員都更懂統(tǒng)計(jì),并且他比任何統(tǒng)計(jì)學(xué)家都更懂編程”。 我認(rèn)識(shí)很多想轉(zhuǎn)行數(shù)據(jù)科學(xué)家的軟件工程師,他們盲目地使用TensorFlow或者Apache Spark等機(jī)器學(xué)習(xí)框架去處理數(shù)據(jù),卻沒(méi)有深入理解背后的統(tǒng)計(jì)理論。因此本文要談一談統(tǒng)計(jì)學(xué)習(xí)(statistical learning),它是源于統(tǒng)計(jì)學(xué)和泛函分析的一個(gè)機(jī)器學(xué)習(xí)理論框架。 01、為什么要學(xué)習(xí)統(tǒng)計(jì)學(xué) 首先,為了知道如何以及何時(shí)使用各種分析方法,理解各種分析方法背后的思想很重要。要想掌握更精巧復(fù)雜的方法,你必須先理解較簡(jiǎn)單的方法;其次,當(dāng)你想準(zhǔn)確地評(píng)估一種分析方法的效果時(shí),你得知道其運(yùn)行的多好或者多么不好;第三,這是一個(gè)令人興奮的研究領(lǐng)域,在科學(xué)、業(yè)界和金融領(lǐng)域有重要的應(yīng)用。最后,統(tǒng)計(jì)學(xué)習(xí)也是一名現(xiàn)代數(shù)據(jù)科學(xué)家的重要素養(yǎng)。一些統(tǒng)計(jì)學(xué)習(xí)的代表性問(wèn)題包括: 找出前列腺癌的高危因素 根據(jù)對(duì)數(shù)周期圖對(duì)一個(gè)音位進(jìn)行分類 根據(jù)人口統(tǒng)計(jì)學(xué)資料、飲食和臨床測(cè)量數(shù)據(jù)預(yù)測(cè)某人是否會(huì)得心臟病 自定義一個(gè)垃圾郵件檢測(cè)系統(tǒng) 識(shí)別手寫(xiě)的郵政編碼數(shù)字 確定一個(gè)組織樣本屬于哪一類癌癥 建立人口調(diào)查數(shù)據(jù)中工資和人口統(tǒng)計(jì)學(xué)變量之間的關(guān)系 在大學(xué)的最后一個(gè)學(xué)期,我完成了一門(mén)數(shù)據(jù)挖掘的獨(dú)立學(xué)習(xí)課程。該課程涵蓋了來(lái)自3本書(shū)的大量材料:《Intro to Statistical Learning》(Hastie, Tibshirani, Witten, James), 《Doing Bayesian Data Analysis》 (Kruschke),和《Time Series Analysis and Applications》 (Shumway, Stoffer)。我們?cè)谪惾~斯分析、馬爾科夫鏈、蒙特卡洛、層次建模、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方面做了大量的練習(xí)。 這些經(jīng)歷加深了我對(duì)數(shù)據(jù)挖掘的興趣,并使我確信要在此領(lǐng)域進(jìn)一步專注。最近我完成了Stanford Lagunita的統(tǒng)計(jì)學(xué)習(xí)在線課程,它涵蓋了我在獨(dú)立學(xué)習(xí)課程中讀過(guò)的《Intro to Statistical Learning》的全部?jī)?nèi)容。在接觸了這本書(shū)兩次之后,我想分享這本書(shū)中的10個(gè)統(tǒng)計(jì)分析方法,我相信任何數(shù)據(jù)科學(xué)家,若想更有效的處理大數(shù)據(jù)集,都應(yīng)該學(xué)習(xí)這些方法。 在介紹這10個(gè)分析方法之前,我想先對(duì)統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)做一個(gè)區(qū)分。我曾經(jīng)寫(xiě)過(guò)一篇關(guān)于機(jī)器學(xué)習(xí)的很受歡迎的文章,所以我相信我有專業(yè)能力來(lái)區(qū)分二者: 機(jī)器學(xué)習(xí)是人工智能的一個(gè)子領(lǐng)域,統(tǒng)計(jì)學(xué)習(xí)是統(tǒng)計(jì)學(xué)的一個(gè)子領(lǐng)域; 機(jī)器學(xué)習(xí)強(qiáng)調(diào)大規(guī)模應(yīng)用和預(yù)測(cè)準(zhǔn)確性,統(tǒng)計(jì)學(xué)習(xí)強(qiáng)調(diào)模型及其可解釋性(interpretability),精度(precision)和不確定性(uncertainty)。 但是這種區(qū)別已經(jīng)越來(lái)越模糊,并且存在大量交叉。此外,機(jī)器學(xué)習(xí)的市場(chǎng)營(yíng)銷(xiāo)做的更好。 02、線性回歸 在統(tǒng)計(jì)學(xué)中,線性回歸是一種通過(guò)擬合因變量(dependent)和自變量(independent variable)之間最佳線性關(guān)系來(lái)預(yù)測(cè)目標(biāo)變量的方法。最佳擬合是通過(guò)確保每個(gè)實(shí)際觀察點(diǎn)到擬合形狀的距離之和盡可能小而完成的。最佳擬合指的是沒(méi)有其他形狀可以產(chǎn)生更小的誤差了。線性回歸的兩種主要類型是:簡(jiǎn)單線性回歸(Simple Linear Regression)和多元線性回歸(Multiple Linear Regression)。簡(jiǎn)單線性回歸使用單一的自變量,通過(guò)擬合出最佳的線性關(guān)系來(lái)預(yù)測(cè)因變量。而多元線性回歸使用多個(gè)自變量,擬合出最佳的線性關(guān)系來(lái)預(yù)測(cè)因變量。 選擇任意兩個(gè)你日常生活中使用的相關(guān)的東西。比如,我有過(guò)去3年中自己每月開(kāi)支、每月收入、每月旅行次數(shù)的數(shù)據(jù),現(xiàn)在我想回答下列問(wèn)題: 明年我每月的開(kāi)支會(huì)是多少? 哪個(gè)因素(每月收入還是每月旅行次數(shù))在決定我的每月開(kāi)支時(shí)更重要? 每月收入、每月旅行次數(shù)是如何與每月支出相關(guān)的? 03、分類 分類是一種數(shù)據(jù)挖掘技術(shù),通過(guò)確定一組數(shù)據(jù)所屬的類別以實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)和分析。分類有時(shí)候也稱為決策樹(shù),是對(duì)大型數(shù)據(jù)集進(jìn)行分析的利器之一。常用的分類方法有兩種:邏輯回歸和判別分析(Discriminant Analysis)。 邏輯回歸適合于因變量為二元變量時(shí)。像所有的回歸分析一樣,邏輯回歸是一種預(yù)測(cè)性分析。邏輯回歸用于描述數(shù)據(jù)并解釋一個(gè)二元因變量與一個(gè)或多個(gè)名義、序列、時(shí)間間隔或比率獨(dú)立變量之間的關(guān)系。邏輯回歸可以回答的問(wèn)題有: 每增加一磅體重和每天吸煙的包數(shù)如何影響患肺癌的概率? 卡路里攝入、脂肪攝入和年齡是否對(duì)心臟病發(fā)作有影響? 在判別分析中,先驗(yàn)知道兩個(gè)或多個(gè)分組或類別(clusters),然后基于已測(cè)量的特征將1個(gè)或多個(gè)新觀測(cè)對(duì)象分類到一個(gè)已知類別中去。判別分析在每個(gè)類別下分別對(duì)預(yù)測(cè)變量X的分布進(jìn)行建模,然后使用貝葉斯定理將這些變量轉(zhuǎn)換為給定X值的對(duì)應(yīng)類別的概率估計(jì)。這些模型可以是線性的或者二次方的: 線性判別分析(Linear Discriminant Analysis)為每個(gè)觀測(cè)值計(jì)算“判別分?jǐn)?shù)”來(lái)判斷它應(yīng)該屬于哪個(gè)類別。判別分?jǐn)?shù)是通過(guò)尋找自變量的線性組合得到的。它假設(shè)每個(gè)類別中的觀測(cè)值都來(lái)自于多元高斯分布,并且預(yù)測(cè)變量的協(xié)方差在響應(yīng)變量Y的所有k個(gè)水平上都相同。 二次判別分析(Quadratic Discriminant Analysis)提供了一個(gè)替代方法。與線性判別分析一樣,二次判別分析假設(shè)每個(gè)Y類別的觀察值都來(lái)自于高斯分布。然后,與線性判別分析不同的是,二次判別分析假設(shè)每個(gè)類都有自己的協(xié)方差矩陣。換句話說(shuō),預(yù)測(cè)變量并未假設(shè)在Y中的所有k個(gè)水平上都具有共同的方差。 04、重采樣方法 重采樣是從原始數(shù)據(jù)中重復(fù)采集樣本的方法。這是一種非參數(shù)統(tǒng)計(jì)推斷方法。換句話說(shuō),重采樣方法不涉及使用通用分布表來(lái)計(jì)算近似的p概率值。 重采樣根據(jù)實(shí)際數(shù)據(jù)生成一個(gè)唯一的采樣分布。它使用實(shí)驗(yàn)方法而不是分析方法來(lái)生成唯一的樣本分布。它產(chǎn)生的是無(wú)偏估計(jì),因?yàn)樗腔谘芯咳藛T研究的數(shù)據(jù)的所有可能結(jié)果生成的無(wú)偏樣本。為了理解重采樣的概念,你需要理解術(shù)語(yǔ)Bootstrapping和交叉驗(yàn)證(Cross-Validation)。 Bootstrapping 在很多情況下是一種有用的方法,比如評(píng)估模型性能、模型集成(ensemble methods)、估計(jì)模型的偏差和方差等。它的工作機(jī)制是對(duì)原始數(shù)據(jù)進(jìn)行有放回的采樣,并將“沒(méi)被選上”的數(shù)據(jù)點(diǎn)作為測(cè)試用例。我們可以這樣操作多次,并計(jì)算平均得分作為模型性能的估計(jì)。 交叉驗(yàn)證是評(píng)估模型性能的一種方法,它通過(guò)將訓(xùn)練數(shù)據(jù)分成k份,使用k-1份作為訓(xùn)練集,使用保留的那份作為測(cè)試集。以不同的方式重復(fù)整個(gè)過(guò)程k次。最終取k個(gè)得分的平均值作為模型性能的估計(jì)。 對(duì)于線性模型而言,普通最小二乘法是擬合數(shù)據(jù)的主要標(biāo)準(zhǔn)。不過(guò),接下來(lái)的3種方法可以為線性模型提供更好的預(yù)測(cè)準(zhǔn)確性和模型可解釋性。 05、子集選擇 這種方法先確定與因變量相關(guān)的p個(gè)自變量的一個(gè)子集,然后使用子集特征的最小二乘擬合模型。 最優(yōu)子集法(Best-Subset Selection)對(duì)p個(gè)自變量的所有可能組合分別做最小二乘法回歸,查看最終的模型擬合效果。該算法分為2個(gè)階段: 擬合所有包含k個(gè)自變量的模型,其中k是模型的最大長(zhǎng)度; 使用交叉驗(yàn)證誤差來(lái)選出最佳模型。 使用測(cè)試誤差或者驗(yàn)證誤差而不是訓(xùn)練誤差來(lái)評(píng)估模型很重要,因?yàn)镽SS和R2會(huì)隨著變量的增加而單調(diào)增加。最好的方式是交叉驗(yàn)證并選擇測(cè)試誤差上R2最高而RSS最低的模型。 向前逐步選擇(Forward Stepwise Selection)使用一個(gè)更小的自變量子集。它從一個(gè)不包含任何自變量的模型開(kāi)始,將自變量逐個(gè)加入模型中,一次一個(gè),直到所有自變量都進(jìn)入模型。每次只將能夠最大限度提升模型性能的變量加入模型中,直到交叉驗(yàn)證誤差找不到更多的變量可以改進(jìn)模型為止。 向后逐步選擇(Backward Stepwise Selection)在開(kāi)始時(shí)包含全部p個(gè)自變量,然后逐個(gè)移除最沒(méi)用的自變量。 混合方法(Hybrid Methods)遵循向前逐步選擇原則,但是在每次添加新變量之后,該方法也可能移除對(duì)模型擬合沒(méi)有貢獻(xiàn)的變量。 06、特征縮減 這種方法使用所有p個(gè)自變量擬合模型,但相對(duì)于最小二乘估計(jì),該方法會(huì)讓一些自變量的估計(jì)系數(shù)向著0衰減。這種衰減又稱正則化(Regularization),具有減少方差的作用。根據(jù)所使用的縮減方法,一些系數(shù)可能被估計(jì)為0。因此這個(gè)方法也用于變量選擇。最常用的兩種縮減系數(shù)方法是嶺回歸(Ridge regression)和L1正則化(Lasso)。 嶺回歸(Ridge regression)與最小二乘類似,但在原有項(xiàng)的基礎(chǔ)上增加了一個(gè)正則項(xiàng)。和最小二乘法一樣,嶺回歸也尋求使RSS最小化的參數(shù)估計(jì),但當(dāng)待估參數(shù)接近于0時(shí),它會(huì)有一個(gè)收縮懲罰。這個(gè)懲罰會(huì)促使縮減待估參數(shù)接近于0。您無(wú)需深入數(shù)學(xué)海洋,僅需要知道嶺回歸通過(guò)減小模型方差來(lái)縮減特征就可以了。就像主成分分析一樣,嶺回歸將數(shù)據(jù)投影到d維空間,然后對(duì)比低方差(最小主成分)和高方差(最大主成分)的系數(shù)進(jìn)行剔除和篩選。 嶺回歸至少有一個(gè)缺點(diǎn):它的最終模型中包含全部p個(gè)自變量。懲罰項(xiàng)會(huì)讓許多系數(shù)接近于0但永遠(yuǎn)不為0。這一點(diǎn)通常對(duì)預(yù)測(cè)準(zhǔn)確性而言并不是問(wèn)題,但它可能會(huì)使模型更難解釋。正則化克服了這個(gè)缺點(diǎn),只要s足夠小,它能強(qiáng)迫某些系數(shù)為0。S=1就是常規(guī)的最小二乘法回歸,當(dāng)s接近于0時(shí),系數(shù)朝著0縮減。因此正則化也相當(dāng)于進(jìn)行了變量選擇。 07、特征縮減 降維將估計(jì)p+1個(gè)系數(shù)減少為M+1個(gè)系數(shù),其中M<p。這是通過(guò)計(jì)算變量的M個(gè)不同的線性組合或投影來(lái)實(shí)現(xiàn)的。然后,這M個(gè)投影被用作預(yù)測(cè)變量,使用最小二乘來(lái)擬合線性回歸模型。常用的兩種降維方法分別是主成分回歸(Principal component regression)和偏最小二乘法(Partial least squares)。 可以將主成分回歸描述為從大量變量中導(dǎo)出低維特征集的方法。數(shù)據(jù)的第一主成分方向是觀測(cè)值變化最大的方向。換句話說(shuō),第一主成分是一條盡可能擬合數(shù)據(jù)的直線。可以擬合p個(gè)不同的主成分。第二主成分是與第一主成分不相關(guān)的變量的線性組合,且方差最大。主成分分析的思想是使用正交方向的數(shù)據(jù)的線性組合來(lái)捕獲數(shù)據(jù)中的最大方差。通過(guò)這種方式可以組合相關(guān)變量的影響,從可用數(shù)據(jù)中提取更多信息,而在常規(guī)最小二乘中我們必須丟棄其中一個(gè)相關(guān)變量。 主成分分析法識(shí)別最能代表預(yù)測(cè)變量X的線性組合。這些組合(方向)以無(wú)監(jiān)督的方式被識(shí)別,響應(yīng)變量Y并未用于幫助確定主成分方向,因此不能保證最能解釋預(yù)測(cè)變量的方向在預(yù)測(cè)上也是最好的(盡管通常都這樣假定)。偏最小二乘法是主成分分析法的一種監(jiān)督學(xué)習(xí)替代方式。它也是一種降維方法,首先識(shí)別一個(gè)新的較小的特征集,這些特征是原始特征的線性組合,然后通過(guò)對(duì)新的M個(gè)特征最小二乘擬合成線性模型。與主成分分析法不同的是,偏最小二乘法會(huì)利用響應(yīng)變量來(lái)識(shí)別新特征。 08、非線性模型 在統(tǒng)計(jì)學(xué)中,非線性回歸是回歸分析的一種形式,觀測(cè)數(shù)據(jù)是通過(guò)一個(gè)或多個(gè)自變量的非線性組合函數(shù)來(lái)建模。數(shù)據(jù)用逐次逼近的方法進(jìn)行擬合,下面是一些處理非線性模型的重要方法: 如果一個(gè)實(shí)數(shù)域上的函數(shù)可以用半開(kāi)區(qū)間上的指示函數(shù)的有限次線性組合來(lái)表示,則它被稱為階躍函數(shù)(step function)。換一種不太正式的說(shuō)法就是,階躍函數(shù)是有限段分段常數(shù)函數(shù)的組合。 分段函數(shù)是由多個(gè)子函數(shù)定義的函數(shù),每個(gè)子函數(shù)應(yīng)用于主函數(shù)域的某一個(gè)區(qū)間上。分段實(shí)際上是表達(dá)函數(shù)的一種方式,而不是函數(shù)本身的特性,但是加上額外的限定條件,它也可以描述函數(shù)的性質(zhì)。例如,分段多項(xiàng)式函數(shù)是這樣一個(gè)函數(shù),它是每個(gè)子域上的多項(xiàng)式,但每個(gè)子域上可能是不同的函數(shù)。 樣條曲線(spline)是由多項(xiàng)式分段定義的特殊函數(shù)。在計(jì)算機(jī)圖形學(xué)中,樣條是指分段多項(xiàng)式參數(shù)曲線。因?yàn)樗鼈兊慕Y(jié)構(gòu)簡(jiǎn)單,擬合簡(jiǎn)易而準(zhǔn)確,可以近似曲線擬合和交互式曲線設(shè)計(jì)中的復(fù)雜形狀,樣條曲線是很流行的曲線。 廣義可加模型(Generalized additive model)是一種廣義線性模型,其中線性預(yù)測(cè)變量依賴于某些預(yù)測(cè)變量的未知光滑函數(shù),側(cè)重于這些光滑函數(shù)的推理。 09、樹(shù)形方法 樹(shù)形方法可以用于回歸和分類問(wèn)題。這涉及到將預(yù)測(cè)空間分層或分割成若干簡(jiǎn)單區(qū)域。由于用于分割預(yù)測(cè)空間的分裂規(guī)則集可以概括成樹(shù)形,因此這類方法被稱為決策樹(shù)方法。下面的方法都是先生成多棵樹(shù),然后將這些樹(shù)組合在一起以產(chǎn)生單個(gè)共識(shí)預(yù)測(cè)。 Bagging是一種通過(guò)從原始數(shù)據(jù)生成額外的訓(xùn)練數(shù)據(jù)從而減少預(yù)測(cè)方差的方法,它通過(guò)使用重復(fù)的組合來(lái)生成與原始數(shù)據(jù)相同的多樣性。通過(guò)增加訓(xùn)練集的大小,雖然不能提高模型的預(yù)測(cè)力,但可以減小方差,將預(yù)測(cè)調(diào)整到預(yù)期結(jié)果。 Boosting是一種使用多個(gè)不同模型計(jì)算輸出的方法,然后使用加權(quán)平均法對(duì)結(jié)果進(jìn)行平均。通過(guò)改變加權(quán)公式,結(jié)合這些模型的優(yōu)點(diǎn)和缺陷,使用不同的微調(diào)模型,可以為更廣泛的輸入數(shù)據(jù)提供良好的預(yù)測(cè)力。 隨機(jī)森林算法非常類似于Bagging。先采集訓(xùn)練集的隨機(jī)bootstrap樣本,然后采集特征的隨機(jī)子集來(lái)訓(xùn)練單棵樹(shù);而在bagging時(shí)是給每一棵樹(shù)全部特征。由于隨機(jī)特征選擇,與常規(guī)bagging相比,樹(shù)彼此之間更加獨(dú)立,這通常會(huì)導(dǎo)致更好的預(yù)測(cè)性能(因?yàn)楦玫姆讲钇顧?quán)衡),而且訓(xùn)練速度更快,因?yàn)槊靠脴?shù)只從特征的一個(gè)子集學(xué)習(xí)。 10、支持向量機(jī) 支持向量機(jī)是一種分類技術(shù),屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)模型。通俗地說(shuō),它通過(guò)尋找超平面(二維中的線,三維中的平面和更高維中的超平面,更正式地,超平面是n維空間的n-1維子空間)以及最大邊界(margin)來(lái)劃分兩類點(diǎn)。從本質(zhì)上講,它是一個(gè)約束優(yōu)化問(wèn)題,因?yàn)槠溥吔缱畲蠡艿綌?shù)據(jù)點(diǎn)分布的約束(硬邊界)。 “支持”這個(gè)超平面的數(shù)據(jù)點(diǎn)被稱為“支持向量”。在上圖中,填充的藍(lán)色圓圈和兩個(gè)實(shí)心方塊是支持向量。對(duì)于兩類數(shù)據(jù)不能線性分離的情況,這些點(diǎn)將被投影到一個(gè)更高維的的空間中,在這個(gè)空間里可能會(huì)線性可分。多分類問(wèn)題可以分解為多個(gè)一對(duì)一或者一對(duì)其余類的二分類問(wèn)題。 11、無(wú)監(jiān)督學(xué)習(xí) 到目前為止,我們只討論了監(jiān)督學(xué)習(xí),即數(shù)據(jù)類別是已知的,算法的目標(biāo)是找出實(shí)際數(shù)據(jù)與它們所屬的類別之間的關(guān)系。當(dāng)類別未知時(shí),我們使用另一種方法,叫做無(wú)監(jiān)督學(xué)習(xí),因?yàn)樗寣W(xué)習(xí)算法自己去找出數(shù)據(jù)中的模式。聚類是無(wú)監(jiān)督學(xué)習(xí)的一個(gè)例子,其中不同的數(shù)據(jù)被聚類為密切相關(guān)的分組。下面是最廣泛使用的無(wú)監(jiān)督學(xué)習(xí)算法的列表: 主成分分析:通過(guò)識(shí)別一組具有最大方差和相互不相關(guān)的特征的線性組合來(lái)生成低維表示的數(shù)據(jù)集。這種方法有助于理解變量在無(wú)監(jiān)督環(huán)境下的潛在的相互作用。 k-Means聚類:根據(jù)聚類中心點(diǎn)的距離將數(shù)據(jù)分為k個(gè)不同的聚蔟。 層次聚類:通過(guò)創(chuàng)建一棵聚類樹(shù)來(lái)構(gòu)建多級(jí)分層結(jié)構(gòu)。 以上是一些基本的統(tǒng)計(jì)技術(shù)概要,可以幫助數(shù)據(jù)科學(xué)項(xiàng)目經(jīng)理/執(zhí)行人員更好地理解他們的數(shù)據(jù)科學(xué)團(tuán)隊(duì)運(yùn)作的內(nèi)容背后隱藏著什么。事實(shí)上,一些數(shù)據(jù)科學(xué)團(tuán)隊(duì)純粹通過(guò)python和R庫(kù)運(yùn)行算法。他們中的大多數(shù)甚至不必考慮背后的數(shù)學(xué)原理。但是,理解統(tǒng)計(jì)分析的基礎(chǔ)知識(shí)可以為你的團(tuán)隊(duì)提供更好的方法。深入了解一小部分就可以更輕松地進(jìn)行操作和抽象。我希望這篇基礎(chǔ)的數(shù)據(jù)科學(xué)統(tǒng)計(jì)指南能給你一個(gè)不錯(cuò)的理解!
        (部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
        立即免費(fèi)申請(qǐng)產(chǎn)品試用 免費(fèi)試用
        相關(guān)文章推薦
        相關(guān)主題

        人工
        客服

        立即掃碼
        享受一對(duì)一服務(wù)
        億信微信二維碼

        預(yù)約
        演示

        您好,商務(wù)咨詢請(qǐng)聯(lián)系

        400咨詢:4000011866
        咨詢熱線:137-0121-6791

        国产精品成人免费视频网站京东_亚洲精品无码久久_亚洲av中文无码乱人伦在线咪咕_成人无码国产一区二区
          1. <center id="eobhh"></center>