關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn)

前言

關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或者相互聯(lián)系。關(guān)聯(lián)規(guī)則挖掘的一個(gè)典型例子就是購物籃分析，該過程通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系，分析出顧客的購買習(xí)慣，通過了解哪些商品頻繁地被顧客同時(shí)買入，能夠幫助零售商制定合理的營銷策略。購物籃事務(wù)的例子如下圖所示：??

? 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn)

例如：在同一次去超級市場時(shí)，如果顧客購買牛奶，同時(shí)他也購買面包的可能性有多大？

通過幫助零售商有選擇地經(jīng)銷和安排貨架，這種信息會(huì)引導(dǎo)銷售。零售商有兩種方法可以進(jìn)行安排貨架，第一種方法是將牛奶和面包盡可能的放的近一些，方便顧客自取，第二種方法是將牛奶和面包放的遠(yuǎn)一些，顧客在購買這兩件物品的時(shí)候，這中間貨架上的物品也會(huì)被顧客選擇購買。這兩種方法都可以進(jìn)一步刺激消費(fèi)。但是，如何發(fā)現(xiàn)牛奶和面包之間的關(guān)聯(lián)關(guān)系呢？Apriori算法可以進(jìn)行關(guān)聯(lián)規(guī)則挖掘。

算法中的基本概念

1、項(xiàng)集和K-項(xiàng)集

令I(lǐng)={i1，i2，i3……id}是購物籃數(shù)據(jù)中所有項(xiàng)的集合，而T={t1，t2，t3….tN}是所有事務(wù)的集合，每個(gè)事務(wù)ti包含的項(xiàng)集都是I的子集。在關(guān)聯(lián)分析中，包含0個(gè)或多個(gè)項(xiàng)的集合稱為項(xiàng)集。如果一個(gè)項(xiàng)集包含K個(gè)項(xiàng)，則稱它為K-項(xiàng)集?？占侵覆话魏雾?xiàng)的項(xiàng)集。例如，在購物籃事務(wù)的例子中，｛啤酒，尿布，牛奶｝是一個(gè)3-項(xiàng)集。

2、支持度計(jì)數(shù)

項(xiàng)集的一個(gè)重要性質(zhì)是它的支持度計(jì)數(shù)，即包含特定項(xiàng)集的事務(wù)個(gè)數(shù)，數(shù)學(xué)上，項(xiàng)集X的支持度計(jì)數(shù)σ（X）可以表示為

σ（X）=|{ti|X?ti，ti∈T}|

其中，符號|*|表示集合中元素的個(gè)數(shù)。

在購物籃事務(wù)的例子中，項(xiàng)集｛啤酒，尿布，牛奶｝的支持度計(jì)數(shù)為2，因?yàn)橹挥?和4兩個(gè)事務(wù)中同時(shí)包含這3個(gè)項(xiàng)。

3、關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)含表達(dá)式，其中X和Y是不相交的項(xiàng)集，即X∩Y=?。

關(guān)聯(lián)規(guī)則的強(qiáng)度可以用它的支持度（support）和置信度（confidence）來度量。支持度確定規(guī)則可以用于給定數(shù)據(jù)集的頻繁程度，而置信度確定Y在包含X的事務(wù)中出現(xiàn)的頻繁程度。

支持度（s）和置信度（c）這兩種度量的形式定義如下：

s（X→Y）=σ（X∪Y）/N

c（X→Y）=σ（X∪Y）/σ（X）

其中， σ（X∪Y）是（X∪Y）的支持度計(jì)數(shù)，N為事務(wù)總數(shù)，σ（X）是X的支持度計(jì)數(shù)。

Example

在購物籃事務(wù)的例子中，考慮規(guī)則{牛奶，尿布}→{啤酒}。由于項(xiàng)集{牛奶，尿布，啤酒}的支持度計(jì)數(shù)為2，而事務(wù)的總數(shù)為5，所以規(guī)則的支持度為2/5=0.4。

規(guī)則的置信度是項(xiàng)集{牛奶，尿布，啤酒}的支持度計(jì)數(shù)與項(xiàng)集{牛奶，尿布}支持度技術(shù)的商，由于存在3個(gè)事務(wù)同時(shí)包含牛奶和尿布，所以規(guī)則的置信度為2/3=0.67。

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

給定事務(wù)的集合T，關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于minsup （最小支持度）并且置信度大于等于minconf（最小置信度）的所有規(guī)則，minsup和minconf是對應(yīng)的支持度和置信度閾值。

關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過程：

（1）頻繁項(xiàng)集產(chǎn)生：其目標(biāo)是發(fā)現(xiàn)滿足最小支持度閾值的所有項(xiàng)集（至少和預(yù)定義的最小支持計(jì)數(shù)一樣），這些項(xiàng)集稱作頻繁項(xiàng)集。

（2）規(guī)則的產(chǎn)生：其目標(biāo)是從上一步發(fā)現(xiàn)的頻繁項(xiàng)集中提取所有高置信度的規(guī)則，這些規(guī)則稱作強(qiáng)規(guī)則。（必須滿足最小支持度和最小置信度）

Apriori算法介紹

Apriori算法的實(shí)質(zhì)使用候選項(xiàng)集找頻繁項(xiàng)集。

Apriori 算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。算法的名字基于這樣的事實(shí)：算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識，正如我們將看到的。Apriori 使用一種稱作逐層搜索的迭代方法，k-項(xiàng)集用于探索（k+1）-項(xiàng)集。首先，找出頻繁1-項(xiàng)集的集合。該集合記作L1。L1 用于找頻繁2-項(xiàng)集的集合L2，而L2 用于找L3，如此下去，直到不能找到頻繁k-項(xiàng)集。找每個(gè)Lk 需要一次數(shù)據(jù)庫掃描。

Apriori性質(zhì)

Apriori性質(zhì)：頻繁項(xiàng)集的所有非空子集都必須也是頻繁的。 Apriori 性質(zhì)基于如下觀察：根據(jù)定義，如果項(xiàng)集I不滿足最小支持度閾值s，則I不是頻繁的，即P（I）《 s。如果項(xiàng)A添加到I，則結(jié)果項(xiàng)集（即I∪A）不可能比I更頻繁出現(xiàn)。因此， I∪A也不是頻繁的，即 P（I∪A）《 s 。

該性質(zhì)屬于一種特殊的分類，稱作反單調(diào)，意指如果一個(gè)集合不能通過測試，則它的所有超集也都不能通過相同的測試。稱它為反單調(diào)的，因?yàn)樵谕ú贿^測試的意義下，該性質(zhì)是單調(diào)的。

先驗(yàn)定理

先驗(yàn)定理：如果一個(gè)項(xiàng)集是頻繁的，則它的所有子集一定也是頻繁的。

（關(guān)于先驗(yàn)定理、單調(diào)與反單調(diào)可以參考下面的例子理解）

? 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn)

如圖所示，假定｛c，d，e｝是頻繁項(xiàng)集。顯而易見，任何包含項(xiàng)集{c，d，e}的事務(wù)一定包含它的子集{c，d}，{c，e}，{d，e}，{c}，tbdfd7ljx和{e}。這樣，如果{c，d，e}是頻繁的，則它的所有子集一定也是頻繁的。

? 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn)

如果項(xiàng)集{a，b}是非頻繁的，則它的所有超集也一定是非頻繁的。即一旦發(fā)現(xiàn){a，b}是非頻繁的，則整個(gè)包含{a，b}超集的子圖可以被立即剪枝。這種基于支持度度量修剪指數(shù)搜索空間的策略稱為基于支持度的剪枝。

這種剪枝策略依賴于支持度度量的一個(gè)關(guān)鍵性質(zhì)，即一個(gè)項(xiàng)集的支持度絕不會(huì)超過它的子集的支持度。這個(gè)性質(zhì)也稱支持度度量的反單調(diào)性。

挖掘頻繁項(xiàng)集

Apriori算法的關(guān)鍵是如何用Lk-1找Lk？由下面的兩步過程連接和剪枝組成。

連接步：為找Lk，通過Lk-1與自己連接產(chǎn)生候選k-項(xiàng)集的集合。該候選項(xiàng)集的集合記作Ck。設(shè)l1和l2是Lk-1中的項(xiàng)集。記號li［j］表示li的第j項(xiàng)（例如，l1［k-2］表示l1的倒數(shù)第3項(xiàng)）。為方便計(jì)，假定事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序。執(zhí)行連接Lk-1　Lk-1；其中，Lk-1的元素是可連接的，如果它們前（k-2）個(gè)項(xiàng)相同；即，Lk-1的元素l1和l2是可連接的，如果（l1［1］=l2［1］）∧（l1［2］=l2［2］）∧…∧（l1［k-2］=l2［k-2］）∧（l1［k-1］《 l2［k-1］）。條件（l1［k-1］《 l2［k-1］）是簡單地保證不產(chǎn)生重復(fù)。連接l1和l2產(chǎn)生的結(jié)果項(xiàng)集是l1［1］l1［2］…l1［k-1］l2［k-1］。

剪枝步：Ck是Lk的超集；即，它的成員可以是頻繁的，也可以不是頻繁的，但所有的頻繁k-項(xiàng)集都包含在Ck中。掃描數(shù)據(jù)庫，確定Ck中每個(gè)候選的計(jì)數(shù)，從而確定Lk（即，根據(jù)定義，計(jì)數(shù)值不小于最小支持度計(jì)數(shù)的所有候選是頻繁的，從而屬于Lk）。然而，Ck可能很大，這樣所涉及的計(jì)算量就很大。為壓縮Ck，可以用以下辦法使用Apriori性質(zhì)：任何非頻繁的（k-1）-項(xiàng)集都不是可能是頻繁k-項(xiàng)集的子集。因此，如果一個(gè)候選k-項(xiàng)集的（k-1）-子集不在Lk-1中，則該候選也不可能是頻繁的，從而可以由Ck中刪除。這種子集測試可以使用所有頻繁項(xiàng)集的散列樹快速完成。

Apriori算法

算法6.2.1（Apriori）使用逐層迭代找出頻繁項(xiàng)集

輸入：事務(wù)數(shù)據(jù)庫D；12345678910111213141516最小支持度閾值。

輸出：D中的頻繁項(xiàng)集L。

方法：

1） L1 = find_frequent_1_itemsets（D）; //找出頻繁1-項(xiàng)集的集合L1

2） for（k = 2; Lk-1 ≠ ?; k++） { //產(chǎn)生候選，并剪枝

3） Ck = aproiri_gen（Lk-1，min_sup）;

4） for each transaction t∈D{ //掃描D進(jìn)行候選計(jì)數(shù)

5） Ct = subset（Ck，t）; //得到t的子集

6） for each candidate c∈Ct

7） c.count++; //支持度計(jì)數(shù)

8） }

9） Lk={c∈Ck| c.count ≥min_sup} //返回候選項(xiàng)集中不小于最小支持度的項(xiàng)集

10） }

11） return L = ∪kLk；//所有的頻繁集

第一步（連接 join）

Procedure apriori_gen（Lk-1： frequent （k-1）-itemset; min_sup： support）

1） for each itemset l1∈Lk-1

2） for each itemset l2∈Lk-1

3） if（l1［1］=l2［1］）∧。..∧（l1［k-2］=l2［k-2］）∧（l1［k-1］《l2［k-1］） then{

4） c = l1　l2; //連接步：l1連接l2

//連接步產(chǎn)生候選，若K-1項(xiàng)集中已經(jīng)存在子集c，則進(jìn)行剪枝

5） if has_infrequent_subset（c，Lk-1） then

6） delete c; //剪枝步：刪除非頻繁候選

7） else add c to Ck;

8） }

9） return Ck;

12345678910111213

第二步：剪枝（prune）

Procedure has_infrequent_subset（c:candidate k-itemset; Lk-1:frequent （k-1）-itemset） //使用先驗(yàn)定理

1） for each （k-1）-subset s of c

2） if c?Lk-1 then

3） return TRUE;

4） return FALSE;

1234567

由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則

一旦由數(shù)據(jù)庫D中的事務(wù)找出頻繁項(xiàng)集，由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則是直接了當(dāng)?shù)模◤?qiáng)關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度）。對于置信度，可以用下式，其中條件概率用項(xiàng)集支持度計(jì)數(shù)表示。

confidence（A→B）=P（A│B）=support（A∪B）/support（A）

其中，support（A∪B）是（A∪B）的支持度計(jì)數(shù)，support（A）是A的支持度計(jì)數(shù)。

根據(jù)該式，關(guān)聯(lián)規(guī)則可以產(chǎn)生如下：

? 1、對于每個(gè)頻繁項(xiàng)集l，產(chǎn)生l的所有非空子集。

? 2、對于l的每個(gè)非空子集s，如果support（l）/support（s） ≥min_conf，則輸出規(guī)則“s?（l-s）”。其中，min_conf是最小置信度閾值。

由于規(guī)則由頻繁項(xiàng)集產(chǎn)生，每個(gè)規(guī)則都自動(dòng)滿足最小支持度。頻繁項(xiàng)集連同它們的支持度預(yù)先存放在hash表中，使得它們可以快速被訪問。

Apriori算法的實(shí)例

問題：數(shù)據(jù)庫中有9個(gè)事務(wù)，即|D| = 9。Apriori假定事務(wù)中的項(xiàng)按字典次序存放。我們使用下圖解釋Apriori算法發(fā)現(xiàn)D中的頻繁項(xiàng)集。圖四

分析與解：

（一）、挖掘頻繁項(xiàng)集

1、在算法的第一次迭代，每個(gè)項(xiàng)都是候選1-項(xiàng)集的集合C1的成員，算法簡單地掃描所有的事務(wù)，對每個(gè)項(xiàng)的出現(xiàn)次數(shù)計(jì)數(shù)。

2、假定最小事務(wù)支持計(jì)數(shù)為2（即，minsup=2/9=22%）。可以確定頻繁1-項(xiàng)集的集合L1。它由具有最小支持度的候選1-項(xiàng)集組成。

? 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn)

3、為發(fā)現(xiàn)頻繁2-項(xiàng)集的集合L2，算法使用L1　L1產(chǎn)生候選2-項(xiàng)集的集合C2。

4、下一步，掃描D中事務(wù)，計(jì)算C2中每個(gè)候選項(xiàng)集的支持計(jì)數(shù)。

5、確定頻繁2-項(xiàng)集的集合L2，它由具有最小支持度的C2中的候選2-項(xiàng)集組成。

【注】 L1　L1等價(jià)于L1×L1，因?yàn)長k　Lk的定義要求兩個(gè)連接的項(xiàng)集共享k-1個(gè)項(xiàng)。

? 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn)

6、候選3-項(xiàng)集的集合C3的產(chǎn)生詳細(xì)地列在圖中。首先，令C3 = L2　L2 = {{I1，I2，I3}， {I1，I2，I5}， {I1，I3，I5}， {I2，I3，I4}， {I2，I3，I5}， {I2，I4，I5}}。根據(jù)Apriori性質(zhì)，頻繁項(xiàng)集的所有子集必須是頻繁的，我們可以確定后4個(gè)候選不可能是頻繁的。因此，我們把它們由C3刪除，這樣，在此后掃描D確定L3時(shí)就不必再求它們的計(jì)數(shù)值。注意，Apriori算法使用逐層搜索技術(shù)，給定k-項(xiàng)集，我們只需要檢查它們的（k-1）-子集是否頻繁。

【L2 L2連接生成C3的過程】

1．連接：C3= L2 L2={{I1，I2}，{I1，I3}，{I1，I5}，{I2，I3}，{I2，I4}，{I2，I5}} 　{{I1，I2}，{I1，I3}，{I1，I5}，{I2，I3}，{I2，I4}，{I2，I5}} = {{I1，I2，I3}，{I1，I2，I5}，{I1，I3，I5}，{I2，I3，I4}，{I2，I3，I5}，{I2，I4，I5}}

2．使用Apriori性質(zhì)剪枝：頻繁項(xiàng)集的所有子集必須是頻繁的。存在候選項(xiàng)集，其子集不是頻繁的嗎？

?{I1，I2，I3}的2-項(xiàng)子集是{I1，I2}，{I1，I3}和{I2，I3}。{I1，I2，I3}的所有2-項(xiàng)子集都是L2的元素。因此，保留{I1，I2，I3}在C3中。

?{I1，I2，I5}的2-項(xiàng)子集是{I1，I2}，{I1，I5}和{I2，I5}。{I1，I2，I5}的所有2-項(xiàng)子集都是L2的元素。因此，保留{I1，I2，I5}在C3中。

?{I1，I3，I5}的2-項(xiàng)子集是{I1，I3}，{I1，I5}和{I3，I5}。{I3，I5}不是L2的元素，因而不是頻繁的。這樣，由C3中刪除{I1，I3，I5}。

?{I2，I3，I4}的2-項(xiàng)子集是{I2，I3}，{I2，I4}和{I3，I4}。{I3，I4}不是L2的元素，因而不是頻繁的。這樣，由C3中刪除{I2，I3，I4}。

?{I2，I3，I5}的2-項(xiàng)子集是{I2，I3}，{I2，I5}和{I3，I5}。{I3，I5}不是L2的元素，因而不是頻繁的。這樣，由C3中刪除{I2，I3，I5}。

?{I2，I4，I5}的2-項(xiàng)子集是{I2，I4}，{I2，I5}和{I4，I5}。{I4，I5}不是L2的元素，因而不是頻繁的。這樣，由C3中刪除{I2，I3，I5}。

3．這樣，剪枝后C3 = {{I1，I2，I3}，{I1，I2，I5}}

7、掃描D中事務(wù)，以確定L3，它由具有最小支持度的C3中的候選3-項(xiàng)集組成。

? 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn)

8、算法使用L3　L3產(chǎn)生候選4-項(xiàng)集的集合C4。盡管連接產(chǎn)生結(jié)果{{I1，I2，I3，I5}}，這個(gè)項(xiàng)集被剪去，因?yàn)樗淖蛹瘂I1，I3，I5}不是頻繁的。這樣，C4=?，因此算法終止，找出了所有的頻繁項(xiàng)集。

（二）、由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則

假定數(shù)據(jù)包含頻繁項(xiàng)集l={I1，I2，I5}，可以由l產(chǎn)生哪些關(guān)聯(lián)規(guī)則？l的非空子集有{I1，I2}，{I1，I5}，{I2，I5}，{I1}，{I2}和{I5}。結(jié)果關(guān)聯(lián)規(guī)則如下，每個(gè)都列出置信度。

I1∩I2→I5， confidence=2/4=0.5=50%

I1∩I5→I2， confidence=2/2=1=100%

I2∩I5→I1， confidence=2/2=1=100%

I1→I2∩I5， confidence=2/6=0.33=33%

I2→I1∩I5， confidence=2/7=0.29=29%

I5→I1∩I2， confidence=2/2=1=100%

如果最小置信度閾值為70%，則只有2、3和最后一個(gè)規(guī)則可以輸出，因?yàn)橹挥羞@些才是強(qiáng)規(guī)則。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

使用先驗(yàn)性質(zhì)，大大提高了頻繁項(xiàng)集逐層產(chǎn)生的效率；簡單易理解；數(shù)據(jù)集要求低。

缺點(diǎn)

1、候選頻繁K項(xiàng)集數(shù)量巨大。

2、在驗(yàn)證候選頻繁K項(xiàng)集的時(shí)候，需要對整個(gè)數(shù)據(jù)庫進(jìn)行掃描，非常耗時(shí)。

改進(jìn)算法

算法思想：

上面的原始算法中由Ck（Lk-1直接生成的）到Lk經(jīng)過了兩步處理，第一步根據(jù)Lk-1進(jìn)行裁剪，第二步根據(jù)minsupport裁剪。上面提到的兩個(gè)提高效率的方法都是基于第一步的。當(dāng)經(jīng)過聯(lián)接生成K維數(shù)據(jù)項(xiàng)集時(shí)，判斷它的K-1維子集是否存在于Lk-1中，如果不在直接刪除。這樣每生成一個(gè)K維數(shù)據(jù)項(xiàng)集時(shí)，就要搜索一遍Lk-1。改進(jìn)算法的思想就是只需要搜索一遍Lk-1就可以了。當(dāng)所有聯(lián)接完成的時(shí)候，掃描一遍Lk-1，對于Lk-1任意元素A，判斷A是否為Ck中元素 c的子集，如果是，對子集c進(jìn)行計(jì)數(shù)。也就是統(tǒng)計(jì)Lk-1中包含Ck中任意元素c的K-1維子集的個(gè)數(shù)。最后根據(jù)c進(jìn)行裁剪。c的計(jì)數(shù)，即 Lk-1中包含的c的子集的個(gè)數(shù)，小于K，則刪除。

改進(jìn)算法偽代碼

算法的主體不變，aprriori_gen函數(shù)改變?nèi)缦拢瘮?shù) has_infrequent_subset不再需要。

procedure apriori_gen（Lk-1:frequent（k-1）-itemsets;minsupport:minimum support threshold）

（1）for each itemset l1 ∈ Lk-1

（2）for each itemset l2∈ L k-1

（3）if（l1［1］=l2［1］）∧（l1［2］=l2［2］）∧…∧（l1［k-2］=l2［k-2］）∧（l1［k-1］=l2［k-1］） then

（4）c=l1∪ l2;

（5）for each itemset l1∈ L k-1 //掃描Lk-1中的元素

（6）for each candidate c∈ Ck //掃描 Ck中的元素

（7）if l1 is the subset of Ck then //判斷前者是不是后者的子集，如果是計(jì)數(shù)加1

（8）c.number++;

（9）C‘k={ c∈Ck |c.number=k};

（10）return C’k;

12345678910111213

例子對比：

問題：假設(shè)Lk-1={{1，2，3}，{1，2，4}，{2，3，4}，{2，3，5}，{1，3，4}}，求Lk。

由Lk-1得到Ck={{1，2，3，4}，{2，3，4，5}，{1，2，3，5}}。

原算法：首先得到{1，2，3，4}的子集{1，2，3}，{1，2，4}，{2，3，4}，{1，3，4}。然后判斷這些子集是不是 Lk-1的元素。如果都是則保留，否則刪除。這里保留，{2，3，4，5}和{1，2，3，5}則應(yīng)該刪除。得到C’k={{1，2，3，4}}。

改進(jìn)算法：首先從Lk-1中取元素{1，2，3}，掃描Ck中的元素，看{1，2，3}是不是Ck元中元素的子集，{1，2，3}是{1，2，3，4}的子集，{1，2，3，4}的計(jì)數(shù)加1，{1，2，3}不是{2，3，4，5}的子集，計(jì)數(shù)不變，是{1，2，3，5}的子集，計(jì)數(shù)加1，經(jīng)過對{1，2，3}處理后得到計(jì)數(shù){1，0，1}；然后看{1，2，4}，{1，2，4}是{1，2，3，4}的子集，而不是 {2，3，4，5}的子集，也不是{1，2，3，5}的子集，計(jì)數(shù)不變，計(jì)數(shù)變?yōu)閧2，0，1}；考察{2，3，4}，{2，3，4}是{1，2，3，4}的子集，也是{2，3，4，5}的子集，不是｛1，2，3，5｝的子集，計(jì)數(shù)變?yōu)閧3，1，1}；{2，3，5}不是{1，2，3，4}的子集，是{2，3，4，5}的子集，也是{1，2，3，5}的子集，計(jì)數(shù)變?yōu)閧3，2，2}；{1，3，4}是{1，2，3，4}的子集，不是{2，3，4，5}的子集，也不是{1，2，3，5}的子集，計(jì)數(shù)變?yōu)閧4，2，2}。對數(shù)據(jù)掃描完畢。此時(shí)K=4，只有第一個(gè)元素的計(jì)數(shù)為4，為高頻數(shù)據(jù)項(xiàng)集。得到C’k={{1，2，3，4}}。

復(fù)雜度對比

下面對原算法和改進(jìn)算法的性能進(jìn)行比較。Lk-1中的數(shù)據(jù)項(xiàng)集的個(gè)數(shù)記為|Lk-1|，Ck中的數(shù)據(jù)項(xiàng)集的個(gè)數(shù)記為|Ck|，Ck中元素的子集個(gè)數(shù)設(shè)為ni，其中i=1～|Ck| 。這里只分析從Ck～C’k的處理。原算法從 AprioriCk中取元素，然后求該元素的子集，判斷該子集是否在 |Ck|中。需要進(jìn)行的計(jì)算為? 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn) 次， 1<=|L’k-1|<=|L’k-1|，1<= n’i <=n i。而改進(jìn)算法是從Lk-1中選取元素，看是不是Ck中元素的子集，對 Ck中數(shù)據(jù)項(xiàng)集的子集個(gè)數(shù)進(jìn)行統(tǒng)計(jì)。需要進(jìn)行的計(jì)算是（|Lk-1|+1）*|Ck| 次。如果 n’i =1，就是每次只取Ck中數(shù)據(jù)項(xiàng)集的一個(gè)子集就可以判斷該數(shù)據(jù)項(xiàng)集，則兩個(gè)算法的效率基本相同，但是這種情況很少出現(xiàn)，從而大部分情況下，改進(jìn)算法的效率要高于原算法。

閱讀全文

Apriori算法(10511) Apriori算法(10511)

人工智能有哪些算法

無監(jiān)督學(xué)習(xí)算法主要用于聚類和關(guān)聯(lián)規(guī)則挖掘。聚類問題是指將數(shù)據(jù)集合劃分成相似的組，而關(guān)聯(lián)規(guī)則挖掘問題是指發(fā)現(xiàn)數(shù)據(jù)集合中經(jīng)常一起出現(xiàn)的數(shù)據(jù)項(xiàng)。常見的無監(jiān)督學(xué)習(xí)算法包括K-means、譜聚類、Apriori等。

2023-08-14 13:51:26

450

Apriori關(guān)聯(lián)規(guī)則算法（Python代碼）

1993年，Agrawal等人在首先提出關(guān)聯(lián)規(guī)則概念，迄今已經(jīng)差不多30年了，在各種算法層出不窮的今天，這算得上是老古董了，比很多人的年紀(jì)還大，往往是數(shù)據(jù)挖掘的入門算法，但深入研究的不多，尤其在風(fēng)控領(lǐng)域，有著極其重要的應(yīng)用潛力

2022-03-22 10:12:39

2766

FFT的基本原理及算法結(jié)構(gòu)

FFT的基本原理及算法結(jié)構(gòu)FFT是利用了旋轉(zhuǎn)因子的周期性和對稱性，對DFT進(jìn)行簡化的運(yùn)算。各種FFT算法可分兩大類：一類是針對N等于2的整數(shù)次冪的算法，如基二算法、基四算法、實(shí)因子算法和分裂基算法等

2009-06-14 00:20:58

面向飛行器遙測數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘算法

面向飛行器遙測數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘算法

2021-06-19 14:36:49

權(quán)重模糊粗糙集的改進(jìn)規(guī)則挖掘算法

針對粗糙集分類規(guī)則挖掘算法LEM剪枝條件過于嚴(yán)格的冋題，提岀一種杈重模糊粗糙集的改進(jìn)規(guī)則挖掘算法。在用例帶權(quán)重的模糊粗糙集理論框架上分析面冋混合數(shù)據(jù)的分類規(guī)則挖掘算法，引亼粗糙集模型的近似覆蓋參數(shù)

2021-06-09 11:48:06

基于關(guān)聯(lián)規(guī)則的隱私保護(hù)屬性匿名算法

針對多數(shù)隱私保護(hù)算法不能較好平衡數(shù)據(jù)精度和數(shù)據(jù)隱私保護(hù)程度的冋題，從數(shù)據(jù)集中準(zhǔn)標(biāo)識屬性與敏感屬性的關(guān)聯(lián)關(guān)系出發(fā)，提出一種基于關(guān)聯(lián)規(guī)則的匿名算法。運(yùn)用 Aprior算法建立屬性間的關(guān)聯(lián)規(guī)則，利用互信息

2021-05-26 17:14:21

一種改進(jìn)無線城市社團(tuán)的SIACD算法

λMAC地址和布爾矩陣的概念對數(shù)據(jù)進(jìn)行預(yù)處理，利用基于項(xiàng)數(shù)的布爾向量交運(yùn)算改進(jìn) Apriori算法再基于Spak實(shí)現(xiàn)算法并行化計(jì)算，通過關(guān)聯(lián)規(guī)則的方式挖掘無線社團(tuán)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明， SIACD算法解決了生成結(jié)果冗余、復(fù)雜度高、迭代計(jì)算等問題，提升

2021-05-11 15:31:03

基于數(shù)據(jù)挖掘的核醫(yī)學(xué)文本關(guān)聯(lián)規(guī)則挖掘方法

的信息。為準(zhǔn)確提取SPECT核醫(yī)學(xué)骨顯像診斷文本中疾病與其表征之間的關(guān)聯(lián)關(guān)系，硏究并提岀基于數(shù)據(jù)挖掘的核醫(yī)學(xué)文本關(guān)聯(lián)規(guī)則挖掘方法。首先，針對核醫(yī)學(xué)診斷文本可能包含的信息冗余、數(shù)據(jù)缺失及表述不一致等問題，提出 SPECT核醫(yī)學(xué)診斷文本的預(yù)

2021-04-28 15:39:12

基于Spark平臺的并行化關(guān)聯(lián)規(guī)則挖掘方法

為了提髙關(guān)聯(lián)規(guī)則挖掘效率’文中提出了一種適用于 Spark平臺的并行仳FP_ growth關(guān)聯(lián)規(guī)則挖掘方法。首先，利用Spark平臺在分布式系統(tǒng)中的所有節(jié)點(diǎn)的內(nèi)存RDD中完成遍歷掃描運(yùn)算，得到頻繁集

2021-04-23 13:59:06

一種改進(jìn)的蝙蝠算法對模糊控制規(guī)則進(jìn)行優(yōu)化

模糊控制規(guī)則是模糊PID控制器的核心，在對模糊控制規(guī)則優(yōu)化時(shí)通常采用特定的方式尋優(yōu)弱化模糊控制規(guī)則間的關(guān)聯(lián)性，存在影響計(jì)算效率以及控制精度等問題。為此，在蝙蝠算法（BA）尋優(yōu)方式的基礎(chǔ)上，提出種改進(jìn)

2021-03-30 10:47:40

基于哈希存儲(chǔ)與事務(wù)加權(quán)的Apriori算法

Aprior算法能夠挖掘事物之間的關(guān)聯(lián)關(guān)系，但傳統(tǒng)Δ prior算法每計(jì)算一次候選集的支持度，都需要遍歷原始事務(wù)數(shù)據(jù)庫，多次掃描數(shù)據(jù)庫導(dǎo)致其效率較低。為此，提岀一種基于哈希存儲(chǔ)與事務(wù)加權(quán)的改進(jìn)算法

2021-03-17 11:22:59

模糊航跡關(guān)聯(lián)算法的分析及改進(jìn)

模糊航跡關(guān)聯(lián)算法在處理密集環(huán)境下以及機(jī)動(dòng)航跡較多的濾波結(jié)果時(shí)，能夠表現(xiàn)出比基礎(chǔ)航跡關(guān)聯(lián)算法更理想的關(guān)聯(lián)效果。但當(dāng)模糊因素集中因素?cái)?shù)目較多且模糊因素權(quán)值分布相對均衡時(shí)，會(huì)使評價(jià)結(jié)果難以分辨、航跡關(guān)聯(lián)

2021-03-16 10:58:45

你了解大數(shù)據(jù)分析模型嗎

Apriori算法簡介：Apriori 算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個(gè)階段來挖掘頻繁項(xiàng)集。

2019-12-11 16:59:39

1643

電能計(jì)量的基本原理以及ADI的電能計(jì)量芯片介紹

電能計(jì)量的基本原理以及ADI的電能計(jì)量芯片

2019-06-26 06:00:00

11045

如何使用閾值自適應(yīng)憶阻器Hopfield神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)規(guī)則挖掘算法

針對基于Hopfield神經(jīng)網(wǎng)絡(luò)的最大頻繁項(xiàng)集挖掘（HNNMFI）算法存在的挖掘結(jié)果不準(zhǔn)確的問題，提出基于電流閾值自適應(yīng)憶阻器（TEAM）模型的Hopfield神經(jīng)網(wǎng)絡(luò)的改進(jìn)關(guān)聯(lián)規(guī)則挖掘算法。首先

2019-05-08 17:07:23

如何在Spark環(huán)境下進(jìn)行犯罪人員時(shí)空關(guān)聯(lián)規(guī)則挖掘

，挖掘出潛在的犯罪人員。首次提出將關(guān)聯(lián)規(guī)則算法用于普通出行消費(fèi)數(shù)據(jù)實(shí)現(xiàn)潛在犯罪人員的預(yù)測。該方法已成功應(yīng)用于X市警務(wù)系統(tǒng)，通過實(shí)踐檢驗(yàn)證明該方法在發(fā)現(xiàn)潛在犯罪人員方面的有效性。

2018-12-18 15:42:32

加權(quán)增量關(guān)聯(lián)規(guī)則挖掘在通信告警預(yù)測中的應(yīng)用說明

數(shù)據(jù)權(quán)值并壓縮到Can-tree結(jié)構(gòu)中；其次，應(yīng)用增量關(guān)聯(lián)規(guī)則挖掘算法對Can-tree進(jìn)行挖掘，生成告警關(guān)聯(lián)規(guī)則；最后，使用模式匹配的方法對實(shí)時(shí)告警信息進(jìn)行預(yù)測，并對結(jié)果進(jìn)行優(yōu)化整理。實(shí)驗(yàn)結(jié)果表明，基于Can-tree的加權(quán)增量關(guān)聯(lián)規(guī)則挖掘算法是

2018-12-12 11:49:38

從五個(gè)方面讓你了解人工智能算法中的Apriori

Apriori算法是經(jīng)典的挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法，也是十大經(jīng)典機(jī)器學(xué)習(xí)算法之一。 Agrawal和Srikant兩位博士在1994年提出了Apriori算法，主要用于做快速的關(guān)聯(lián)規(guī)則分析。

2018-07-05 14:25:00

2021

蟻群算法的基本原理及其改進(jìn)算法.ppt

蟻群算法的基本原理及其改進(jìn)算法.ppt

2018-04-23 14:28:10

十大經(jīng)典數(shù)據(jù)挖掘算法—Apriori

關(guān)聯(lián)分析是一類非常有用的數(shù)據(jù)挖掘方法，能從數(shù)據(jù)中挖掘出潛在的關(guān)聯(lián)關(guān)系。Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單

2018-02-04 09:37:56

3273

數(shù)據(jù)挖掘Apriori算法報(bào)告

Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個(gè)階段來挖掘頻繁項(xiàng)集。而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域。

2018-02-04 09:30:33

4829

Apriori算法詳解

本文主要是對Apriori算法的詳解，包括了Apriori算法詳細(xì)介紹概括和步驟和Apriori算法偽代碼和例子。Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過候選集生成和情節(jié)

2018-02-02 16:35:10

20053

Matlab關(guān)于Apriori算法設(shè)計(jì)

本文詳細(xì)介紹了Matlab關(guān)于Apriori算法設(shè)計(jì)。Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法Apriori使用一種稱作逐層搜索的迭代方法，“K-1項(xiàng)集”用于搜索“K項(xiàng)集”。

2018-02-02 16:20:15

4662

簡介Apriori算法并解析該算法的具體策略和步驟，給出Python實(shí)現(xiàn)代碼

隨著大數(shù)據(jù)概念的火熱，啤酒與尿布的故事廣為人知。我們?nèi)绾伟l(fā)現(xiàn)買啤酒的人往往也會(huì)買尿布這一規(guī)律？數(shù)據(jù)挖掘中的用于挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的Apriori算法可以告訴我們。本文首先對Apriori算法進(jìn)行

2018-01-31 15:04:39

5379

基于MapReduce的并行關(guān)聯(lián)規(guī)則挖掘算法

數(shù)據(jù)挖掘（ data mining）又稱做知識發(fā)現(xiàn)（knowledge disco-ver in database，KDD），其目的在于發(fā)現(xiàn)大量數(shù)據(jù)集中有價(jià)值的隱含信息。常見的數(shù)據(jù)挖掘任務(wù)有關(guān)聯(lián)規(guī)則

2018-01-10 15:22:49

考慮價(jià)格的跨種類模糊序列模式挖掘算法

序列模式挖掘是一種從大規(guī)模序列數(shù)據(jù)中發(fā)現(xiàn)頻繁子序列的數(shù)據(jù)挖掘技術(shù)，在用戶行為研究、市場分析以及決策支持等領(lǐng)域具有廣泛的應(yīng)用。自從Agrawal等人提出并給出一種挖掘算法-Apriori以來，已經(jīng)有

2018-01-10 14:05:10

關(guān)聯(lián)規(guī)則推薦算法分析及評估

算法頻繁項(xiàng)集挖掘問題進(jìn)行了重新評估和分析，定義了新的測評指標(biāo)推薦非空率以及七前項(xiàng)頻繁項(xiàng)集關(guān)聯(lián)規(guī)則的概念，設(shè)計(jì)了基于K前項(xiàng)頻繁項(xiàng)集的剪枝方法，提出了優(yōu)化Apriori算法且適合不同測評標(biāo)準(zhǔn)值的七前項(xiàng)頻繁項(xiàng)集挖掘算法，降低頻繁項(xiàng)

2018-01-09 17:17:05

一種利用關(guān)聯(lián)規(guī)則挖掘的多標(biāo)記分類算法

學(xué)習(xí)框架具有重要的意義．首先對經(jīng)典的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn)，提出了基于矩陣分治的頻繁項(xiàng)集挖掘算法。并證明了該算法挖掘頻繁項(xiàng)集的正確性：進(jìn)而將該算法應(yīng)用于多標(biāo)記學(xué)習(xí)框架中。分別提出了基于全局關(guān)聯(lián)規(guī)則挖掘和局部關(guān)

2017-12-25 15:53:14

基于關(guān)聯(lián)規(guī)則挖掘的安全審計(jì)系統(tǒng)

異常情況，提高了計(jì)算機(jī)的安全性。在傳統(tǒng)Apriori算法的基礎(chǔ)上提出一種改進(jìn)的E-Apriori算法，該算法可以縮小待掃描事務(wù)集合的范圍，降低算法的時(shí)間復(fù)雜度，提高運(yùn)行效率。實(shí)驗(yàn)結(jié)果表明基于關(guān)聯(lián)規(guī)則挖掘的審計(jì)系統(tǒng)對攻擊類型的識別能

2017-12-15 17:19:33

基于散列及位圖的改進(jìn)關(guān)聯(lián)規(guī)則算法BHA

針對關(guān)聯(lián)規(guī)則個(gè)性化好友推薦中規(guī)則挖掘效率及推薦有效性不高的問題，首先提出基于散列及位圖的改進(jìn)關(guān)聯(lián)規(guī)則算法BHA。該算法通過引入散列技術(shù)，減少了頻繁2項(xiàng)集挖掘所需的時(shí)間；利用位圖及相關(guān)性質(zhì)，壓縮無關(guān)

2017-12-14 14:32:14

基于關(guān)聯(lián)矩陣的高效DNA序列挖掘算法

，因此經(jīng)典的序列挖掘算法很難適應(yīng)DNA序列的模式挖掘需要。本文在分析DNA序列的挖掘需求基礎(chǔ)上，提出了一種稱為關(guān)聯(lián)矩陣的數(shù)據(jù)結(jié)構(gòu)。關(guān)聯(lián)矩陣能夠?qū)⑿蛄袛?shù)據(jù)壓縮成可分析的矩陣形式，所以它的空間緊湊性能夠使得超長的DNA序列能夠在有限的

2017-12-11 17:23:26

基于支持度和增比率的改進(jìn)關(guān)聯(lián)分類算法

。提出改進(jìn)的關(guān)聯(lián)分類算法 ACSER。ACSER不僅考慮項(xiàng)集到本類的支持度，也考慮項(xiàng)集到補(bǔ)類的支持度。首先，提取頻繁增比模式作為分類候選規(guī)則集；其次，利用置信度和增比率度量規(guī)則的強(qiáng)度，按照其強(qiáng)度進(jìn)行排序和剪枝；最后，選擇

2017-12-05 15:33:54

基于Hadoop平臺的大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法MRPREPOST

發(fā)展速度趕不上信息量的爆炸式增長，現(xiàn)有的算法在處理大數(shù)據(jù)時(shí)顯得力不從心，如Apriori 算法需多次檢索原數(shù)據(jù)庫，容易造成I/O 開銷，F(xiàn)PGrowth 算法在迭代挖掘頻繁時(shí)，產(chǎn)生的子樹結(jié)構(gòu)太多，不利于大數(shù)據(jù)挖掘。因此根據(jù)大數(shù)據(jù)環(huán)境的特點(diǎn)，研究相應(yīng)的數(shù)據(jù)

2017-10-31 15:19:50

基于關(guān)聯(lián)規(guī)則挖掘算法的用電負(fù)荷能效研究（ECALT和APRIORI算法）

，降低用電成本，本文試圖利用關(guān)聯(lián)規(guī)則算法甲對大型用電客戶的數(shù)據(jù)進(jìn)行深度的數(shù)據(jù)挖掘，從而對用電負(fù)荷的能效進(jìn)行優(yōu)化。關(guān)聯(lián)規(guī)則的傳統(tǒng)算法Apriori 運(yùn)行效率低下，而Eclat 算法運(yùn)算時(shí)間過長問，因此為了避免上述問題本文提出了一

2017-10-30 16:03:14

兩種關(guān)聯(lián)規(guī)則挖掘算法的介紹及其主要步驟的分析

關(guān)聯(lián)規(guī)則按照不同的標(biāo)準(zhǔn)，能用各種不同的方法分成不同類型。將關(guān)聯(lián)規(guī)則分為挖掘頻繁項(xiàng)集、閉頻繁項(xiàng)集、被約束頻繁項(xiàng)集、極大頻繁項(xiàng)集，是根據(jù)挖掘模式的完全性分類的;將關(guān)聯(lián)規(guī)則分為多層和單層關(guān)聯(lián)規(guī)則，以及單位

2017-09-28 19:35:43

關(guān)聯(lián)規(guī)則改進(jìn)及其在計(jì)算機(jī)取證中的應(yīng)用_劉鋒

關(guān)聯(lián)規(guī)則改進(jìn)及其在計(jì)算機(jī)取證中的應(yīng)用_劉鋒

2017-03-19 11:31:31

一種改進(jìn)的關(guān)聯(lián)規(guī)則個(gè)性化推薦方法_饒泓

一種改進(jìn)的關(guān)聯(lián)規(guī)則個(gè)性化推薦方法_饒泓

2017-03-14 17:12:31

混合云環(huán)境下數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘算法_李慧琴

混合云環(huán)境下數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘算法_李慧琴_王俊潔

2017-01-07 20:43:12

基于FP_樹的時(shí)空關(guān)聯(lián)規(guī)則挖掘算法研究

基于FP_樹的時(shí)空關(guān)聯(lián)規(guī)則挖掘算法研究_張雪萍

2017-01-07 19:08:43

大數(shù)據(jù)環(huán)境下相容數(shù)據(jù)集的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

大數(shù)據(jù)環(huán)境下相容數(shù)據(jù)集的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘_張春生

2017-01-07 19:08:43

改進(jìn)Apriori算法在高校學(xué)生信息系統(tǒng)中的應(yīng)用研究

針對現(xiàn)有高校學(xué)生信息管理系統(tǒng)數(shù)據(jù)庫中大量冗余數(shù)據(jù)的挖掘問題，為從中挖掘出隱含的關(guān)聯(lián)規(guī)則，本文采用基于數(shù)組向量的方法對經(jīng)典的Apriori算法改進(jìn)，并在信息系統(tǒng)中進(jìn)行具體應(yīng)用研究。以高校學(xué)生信息管理

2016-01-04 14:50:43

基于Apriori_Pro算法的輔助知識獲取技術(shù)研究

為了解決產(chǎn)生式規(guī)則專家系統(tǒng)知識獲取難的問題，采用了一種新的Apriori Pro改進(jìn)算法，并且將該算法成功的應(yīng)用于火炮故障診斷專家系統(tǒng)中。實(shí)驗(yàn)結(jié)果顯示改進(jìn)后的Apriori算法有效的提高了故障診斷知識獲取的準(zhǔn)確性和效率性。

2015-12-21 10:19:39

數(shù)據(jù)挖掘Apriori算法的改進(jìn)

為了解決數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則Apriori算法存在的缺陷，提出了一種全新的基于對候選項(xiàng)集處理的改進(jìn)算法。該算法主要采用一次掃描數(shù)據(jù)庫和對候選項(xiàng)集進(jìn)行計(jì)數(shù)處理的方法，實(shí)現(xiàn)了減少

2013-08-19 17:44:36

基于項(xiàng)目編碼的關(guān)聯(lián)規(guī)則改進(jìn)算法

針對傳統(tǒng)的Apriori算法在挖掘布爾型關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集中需不斷掃描數(shù)據(jù)庫，在時(shí)間與空間上都存在很大的冗余，尤其在處理海量稠密數(shù)據(jù)時(shí)，算法性能急劇下降的問題，本文從減少對

2012-12-17 10:45:52

改進(jìn)的基于兩個(gè)矩陣的關(guān)聯(lián)規(guī)則挖掘算法

Apriori及其改進(jìn)算法可以歸為基于SQL和基于內(nèi)存兩類，為提高關(guān)聯(lián)規(guī)則挖掘效率，在分析了一部分二類算法存在效率瓶頸的基礎(chǔ)上，提出了一種高效的改進(jìn)算法。

2012-05-29 15:11:41

常用數(shù)據(jù)挖掘算法研究

為了給企業(yè)快速、低成本構(gòu)建客戶管理系統(tǒng)、CRM系統(tǒng)、數(shù)據(jù)挖掘應(yīng)用系統(tǒng)提供參考與借鑒，研究了常用數(shù)據(jù)挖掘算法。通過研究數(shù)據(jù)挖掘算法基本原理、適用范圍及優(yōu)點(diǎn)，得出可以使

2011-06-08 16:06:23

關(guān)聯(lián)規(guī)則Apriori算法的改進(jìn)

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的一個(gè)重要分支。Apriori算法是關(guān)聯(lián)規(guī)則挖掘中最有影響的經(jīng)典算法。本文在介紹了關(guān)聯(lián)規(guī)則的概念，在分析Apriori算法的基礎(chǔ)上提出一種基于劃分的Apriori改進(jìn)算

2011-05-13 16:37:03

一種新的改進(jìn)Apriori算法

通過對Apriori算法的核心思想進(jìn)行研究分析,結(jié)合Apriori性質(zhì),對Apriori中連接的步驟進(jìn)行了改進(jìn).通過該方法,可以有效地減少連接步產(chǎn)生的大量無用項(xiàng)集并減少判斷項(xiàng)集子集是否是頻繁項(xiàng)

2010-10-21 16:31:03

概率關(guān)聯(lián)規(guī)則在圖書流通量挖掘中的應(yīng)用

本文提出了一種概率關(guān)聯(lián)規(guī)則算法,通過使用概率的方法估算任意數(shù)據(jù)項(xiàng)集在事務(wù)數(shù)據(jù)庫中出現(xiàn)的概率來求候選頻繁項(xiàng)集,并給出了相關(guān)算法描述及其算法實(shí)現(xiàn)。將本算法與Apriori算法

2010-02-25 14:58:44

一種新型基于用戶指導(dǎo)的多關(guān)系關(guān)聯(lián)規(guī)則挖掘算法

本文提出了一種基于用戶指導(dǎo)的多關(guān)系關(guān)聯(lián)規(guī)則挖掘算法，借鑒有向圖的概念動(dòng)態(tài)的選擇最優(yōu)關(guān)鍵表，并利用元組ID 傳播的思想使多表間無需物理連接而能直接進(jìn)行關(guān)聯(lián)規(guī)則挖掘

2010-01-22 14:26:42

基于關(guān)聯(lián)規(guī)則的Apriori-Partition算法的可視化

關(guān)聯(lián)規(guī)則的提取是數(shù)據(jù)挖掘中的重要研究內(nèi)容，對關(guān)聯(lián)規(guī)則提取中的Apriori算法進(jìn)行了分析與研究，針對該算法的運(yùn)算效率不高，對該算法進(jìn)行了優(yōu)化。Partition算法以經(jīng)典的Aprio

2010-01-15 13:51:11

基于模糊關(guān)聯(lián)規(guī)則并行挖掘算法的飛行數(shù)據(jù)處理

針對順序的模糊關(guān)聯(lián)規(guī)則算法在處理海量飛行數(shù)據(jù)時(shí)，由于算法可擴(kuò)展性低、響應(yīng)時(shí)間過長而帶來數(shù)據(jù)處理的不便，本文采用模糊關(guān)聯(lián)并行挖掘算法，先使用并行的模糊c-2均值算法

2009-12-30 12:51:20

一種基于矩陣壓縮的Apriori優(yōu)化算法

挖掘關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中一個(gè)重要的課題，產(chǎn)生頻繁項(xiàng)集是其中的一個(gè)關(guān)鍵步驟。文章提出了一種基于矩陣壓縮的Apriori 優(yōu)化算法，并將該算法與Apriori 算法進(jìn)行了比較。實(shí)

2009-12-25 14:21:44

XML快速關(guān)聯(lián)規(guī)則挖掘算法的研究

本文研究如何快速有效地從XML 數(shù)據(jù)中挖掘頻繁模式，提出了從XML 數(shù)據(jù)中挖掘頻繁模式的增量式算法FreqtTree。該算法首先將XML 文檔轉(zhuǎn)化成DOM 樹，然后從DOM樹中挖掘所有頻繁模

2009-12-25 14:18:01

關(guān)聯(lián)規(guī)則挖掘算法的研究和應(yīng)用

文中介紹了Apriori 算法，并從逐漸減少掃描的數(shù)據(jù)量和減少掃描數(shù)據(jù)庫的次數(shù)兩個(gè)方面對Apriori 算法進(jìn)行優(yōu)化，介紹了AprioriTid 算法和Partition 算法。根據(jù)這兩種算法的優(yōu)勢又將

2009-12-25 13:43:46

一種新的改進(jìn)的Apriori算法

本文通過對關(guān)聯(lián)規(guī)則挖掘算法Apriori 算法的分析和研究，指出了其在具體應(yīng)用中存在的主要問題。提出與以往不同的改進(jìn)策略：在約簡數(shù)據(jù)庫事務(wù)的同時(shí)，生成頻繁項(xiàng)目集和保存具有

2009-12-25 12:59:40

基于關(guān)聯(lián)規(guī)則與聚類算法的查詢擴(kuò)展算法

基于關(guān)聯(lián)規(guī)則與聚類算法的查詢擴(kuò)展算法:針對信息檢索中查詢關(guān)鍵詞與文檔用詞不匹配的問題，提出一種基于關(guān)聯(lián)規(guī)則與聚類算法的查詢擴(kuò)展算法。該算法在第1 階段對初始查

2009-10-17 23:00:33

分類規(guī)則挖掘算法綜述

分類規(guī)則挖掘算法綜述:分類規(guī)則挖掘是數(shù)據(jù)挖掘中一個(gè)重要的研究領(lǐng)域。通過介紹當(dāng)前數(shù)據(jù)挖掘中具有代表性的分類算法，總結(jié)了各種算法的優(yōu)缺點(diǎn)，給出了分類算法的應(yīng)用以及

2009-10-10 14:24:29

基于隱私保護(hù)的分布式關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

為了提高對隱私數(shù)據(jù)的保護(hù)程度和挖掘結(jié)果的準(zhǔn)確性,提出一種有效的隱私保護(hù)分布式關(guān)聯(lián)規(guī)則挖掘算法。理論分析表明本文提出的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘方法具有很好的隱私性和高

2009-09-26 15:17:58

數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的研究

通過對Apriori 算法的基本思想和性能的研究分析，指出Apriori 算法存在一些不足。針對這些不足提出了采用比較支持計(jì)數(shù)合并頻繁項(xiàng)集和減少掃描數(shù)據(jù)庫記錄個(gè)數(shù)兩種方法的CRApriori

2009-09-26 14:32:07

基于最大模式的關(guān)聯(lián)規(guī)則挖掘算法研究

提出了一種基于最大模式的關(guān)聯(lián)規(guī)則挖掘算法，探討了它的實(shí)現(xiàn)步驟，最后通過實(shí)例說明它是數(shù)據(jù)挖掘中一種有效的關(guān)聯(lián)規(guī)則挖掘算法。

2009-09-16 10:44:31

利用分布式數(shù)據(jù)庫實(shí)現(xiàn)高效查找頻繁項(xiàng)集

數(shù)據(jù)挖掘的目的是為了發(fā)現(xiàn)有效的關(guān)聯(lián)規(guī)則從而找到不易發(fā)現(xiàn)的規(guī)律從而對企業(yè)的決策提供幫助,而查找頻繁項(xiàng)集是發(fā)現(xiàn)有效關(guān)聯(lián)規(guī)則的基礎(chǔ)，其基礎(chǔ)算法是Apriori 算法。分布式

2009-09-08 14:28:14

關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)錄入、校對系統(tǒng)中的應(yīng)用

本文介紹了關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)錄入、校對系統(tǒng)的設(shè)計(jì)思路、體系結(jié)構(gòu)和實(shí)現(xiàn)要點(diǎn)。關(guān)鍵詞：數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則；關(guān)聯(lián)規(guī)則參照表數(shù)據(jù)的準(zhǔn)確錄入和高效的校對是各行業(yè)的產(chǎn)

2009-09-03 11:55:23

一種新的多層次關(guān)聯(lián)規(guī)則挖掘算法

關(guān)聯(lián)是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要研究課題。如何有效地推導(dǎo)出關(guān)聯(lián)規(guī)則，在過去已經(jīng)有許多方法相繼被提出，但大部分的方法對于(a)數(shù)值型數(shù)據(jù)的處理、(b)漸進(jìn)式挖掘以及(c)在線

2009-09-03 09:41:19

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)在ITS中的分析與實(shí)現(xiàn)

針對當(dāng)前智能交通系統(tǒng)的現(xiàn)狀與需求，結(jié)合關(guān)聯(lián)規(guī)則的研究，將關(guān)聯(lián)規(guī)則發(fā)現(xiàn)應(yīng)用到智能交通領(lǐng)域中，采用一種改進(jìn)的Apriori 算法，獲取智能交通系統(tǒng)中實(shí)時(shí)數(shù)據(jù)的內(nèi)在關(guān)聯(lián)規(guī)則

2009-08-27 08:59:47

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)在ITS中的分析與實(shí)現(xiàn)

2009-08-26 11:49:25

基于用戶興趣導(dǎo)向的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

本文在針對關(guān)聯(lián)規(guī)則的Apriori 算法的基礎(chǔ)上,為了提高用戶數(shù)據(jù)挖掘的人機(jī)交互性能,解決關(guān)聯(lián)規(guī)則挖掘產(chǎn)生冗余規(guī)則的問題,提出了基于用戶導(dǎo)向的關(guān)聯(lián)規(guī)則挖掘方法SQL-IIAR 算法

2009-08-26 11:41:39

基于Apriori改進(jìn)算法的入侵檢測系統(tǒng)的研究

介紹了入侵檢測系統(tǒng)的基本概念，在分析了現(xiàn)階段入侵檢測系統(tǒng)存在問題的基礎(chǔ)上，提出了一個(gè)基于數(shù)據(jù)挖掘技術(shù)的入侵檢測系統(tǒng)，其中主要采用了關(guān)聯(lián)規(guī)則中的Apriroi 算法挖掘入

2009-08-10 09:25:32

基于聚集矩陣的審計(jì)日志關(guān)聯(lián)規(guī)則更新算法

針對審計(jì)日志記錄的特性，本文提出了一種基于聚集信息矩陣的高效增量式關(guān)聯(lián)規(guī)則的挖掘算法，并解決了當(dāng)最小支持度改變以及審計(jì)數(shù)據(jù)動(dòng)態(tài)更新時(shí)相應(yīng)的關(guān)聯(lián)規(guī)則的更新問題。

2009-08-05 08:45:38

基于興趣度的多值關(guān)聯(lián)規(guī)則挖掘

主要討論在大型數(shù)據(jù)庫中挖掘多值關(guān)聯(lián)規(guī)則。在對數(shù)值屬性區(qū)域劃分進(jìn)行研究，提出多值區(qū)間下的Apriori 定理、前件子集定理和后件子集定理，提出規(guī)則興趣度的測量方法并且基于規(guī)

2009-06-26 10:35:37

多屬性約束事件序列的關(guān)聯(lián)規(guī)則挖掘方法

傳統(tǒng)序列模式挖掘算法往往忽略了序列模式本身的時(shí)間特性，所考查的序列項(xiàng)都是單一事件，無屬性約束。提出了一種挖掘多屬性約束事件序列關(guān)聯(lián)規(guī)則的方法。此方法基于傳統(tǒng)

2009-06-17 11:08:30

基于“新穎度”的關(guān)聯(lián)挖掘算法An Association R

關(guān)聯(lián)挖掘的目的是從大量數(shù)據(jù)中發(fā)現(xiàn)對用戶有用、新穎、重要的關(guān)聯(lián)規(guī)則。傳統(tǒng)的關(guān)聯(lián)挖掘算法會(huì)產(chǎn)生大量對用戶而言顯而易見的平凡規(guī)則，使那些真正對用戶有用的新穎規(guī)則被

2009-05-25 14:24:34

基于回收技術(shù)的關(guān)聯(lián)規(guī)則研究

關(guān)聯(lián)規(guī)則的研究目前已經(jīng)能夠從含有缺失值的數(shù)據(jù)間建立關(guān)聯(lián)性，但缺失值填充的完整性仍顯不足。該文利用規(guī)則回收技術(shù)，以回收組合的方法將已往在挖掘過程中被刪除掉的關(guān)聯(lián)

2009-04-18 08:59:26

一種新的模糊加權(quán)關(guān)聯(lián)規(guī)則挖掘算法

為了提高關(guān)聯(lián)規(guī)則挖掘算法處理大數(shù)據(jù)集的性能，提出一種新的模糊加權(quán)關(guān)聯(lián)規(guī)則挖掘算法——FWAR算法。通過建立模糊加權(quán)關(guān)聯(lián)規(guī)則模型生成候選項(xiàng)目集，并進(jìn)行剪枝，新建的模型

2009-04-13 09:56:38

Apriori算法的一種優(yōu)化方法

介紹關(guān)聯(lián)規(guī)則挖掘中的經(jīng)典算法――Apriori算法的關(guān)鍵思想。針對傳統(tǒng)Apriori算法效率上的不足，提出一種改進(jìn)的Apriori算法――En-Apriori算法。該算法采用矩陣的方法，只須掃描一遍數(shù)

2009-04-10 08:48:31

基于矩陣的關(guān)聯(lián)規(guī)則挖掘算法

針對一些經(jīng)典的關(guān)聯(lián)規(guī)則算法進(jìn)行分析，提出一種基于矩陣的高效關(guān)聯(lián)規(guī)則挖掘算法。該算法把交易數(shù)據(jù)庫轉(zhuǎn)化為0-1矩陣形式，只需進(jìn)行一次數(shù)據(jù)庫搜索，使用邏輯運(yùn)算方法發(fā)現(xiàn)頻

2009-04-09 09:11:34

關(guān)聯(lián)規(guī)則挖掘在稅收執(zhí)法管理中的應(yīng)用

針對稅收執(zhí)法數(shù)據(jù)量大和頻繁模式樹FP_TREE算法在挖掘海量數(shù)據(jù)時(shí)需要占用大量內(nèi)存的缺點(diǎn)，提出一種基于二叉頻繁模式樹FP_Btree的關(guān)聯(lián)規(guī)則算法。算法用二叉樹存儲(chǔ)數(shù)據(jù)，減少對數(shù)

2009-04-09 08:51:30

水平分布數(shù)據(jù)集的隱私保護(hù)關(guān)聯(lián)挖掘算法

研究水平分布數(shù)據(jù)集的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘算法。針對現(xiàn)有算法需要多次掃描數(shù)據(jù)集的缺點(diǎn)，提出一種只須對數(shù)據(jù)集進(jìn)行2次掃描、基于分布式FP-tree的隱私保護(hù)挖掘算法。該算法可

2009-03-31 10:12:32

多數(shù)據(jù)庫中的負(fù)關(guān)聯(lián)規(guī)則挖掘技術(shù)及發(fā)展趨勢

負(fù)關(guān)聯(lián)規(guī)則反映了數(shù)據(jù)項(xiàng)之間的互斥關(guān)系，能提供很多有用的信息，在決策支持中起重要作用，但現(xiàn)行的挖掘算法主要是針對單一數(shù)據(jù)庫的挖掘，多數(shù)據(jù)庫中負(fù)關(guān)聯(lián)規(guī)則的挖掘還未

2009-03-20 14:27:12