chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用人工智能開發(fā)最精確的零售預(yù)測(cè)解決方案

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-27 09:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Jupyter 筆記本使用 RAPIDS 的最佳實(shí)踐

一家全球領(lǐng)先的零售商已經(jīng)投入巨資成為 世界上最具競(jìng)爭(zhēng)力的科技公司之一。

準(zhǔn)確 而且及時(shí) 需要 預(yù)測(cè)數(shù)以百萬計(jì)的商品組合對(duì)服務(wù)至關(guān)重要 他們的 每周有數(shù)百萬的客戶。他們成功預(yù)測(cè)的關(guān)鍵是 RAPIDS ,一個(gè) GPU 加速庫(kù)的開源套件 RAPIDS 幫助他們撕破了大規(guī)模數(shù)據(jù),并將預(yù)測(cè)精度提高了幾個(gè)百分點(diǎn)——它現(xiàn)在在減少基礎(chǔ)設(shè)施 GPU 占用的基礎(chǔ)上運(yùn)行速度快了幾個(gè)數(shù)量級(jí)。 這使他們能夠?qū)?gòu)物者的趨勢(shì)作出實(shí)時(shí)反應(yīng),并有更多的正確的產(chǎn)品上架,減少缺貨情況,并增加銷售。

使用 RAPIDS ,數(shù)據(jù)從業(yè)者可以加速 NVIDIA GPU 上的管道,將數(shù)據(jù)操作(包括數(shù)據(jù)加載、處理和培訓(xùn))從幾天減少到幾分鐘。 RAPIDS 通過構(gòu)建 論與整合 流行的 分析生態(tài)系統(tǒng),如 PyData 公司 和 Apache Spark ,使用戶能夠立即看到好處。 與類似的基于 CPU 的實(shí)現(xiàn)相比, RAPIDS 提供 50 倍的性能 改進(jìn) 對(duì)于經(jīng)典的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)( ML )過程 按比例 這大大降低了大型數(shù)據(jù)科學(xué)操作的總體擁有成本( TCO )。

pYYBAGJonDmAMuSOAACylY9wusk068.png

圖 1 。帶有 GPU 和 RAPIDS 的數(shù)據(jù)科學(xué)管道 。

為了學(xué)習(xí)和解決復(fù)雜的數(shù)據(jù)科學(xué)和人工智能挑戰(zhàn), 零售業(yè)領(lǐng)導(dǎo)者經(jīng)常利用一個(gè)叫做“ Kaggle 競(jìng)賽 ”。 Kaggle 是一個(gè)平臺(tái),匯集了數(shù)據(jù)科學(xué)家和其他開發(fā)人員,以解決公司發(fā)布的具有挑戰(zhàn)性和有趣的問題。 事實(shí)上,在過去的一年里,已經(jīng)有超過 20 個(gè)解決零售業(yè)挑戰(zhàn)的競(jìng)賽。

利用 RAPIDS 和最佳實(shí)踐進(jìn)行預(yù)測(cè)競(jìng)賽, NVIDIA Kaggle 大師 Kazuki Onodera 在啟動(dòng)市場(chǎng)籃分析卡格爾競(jìng)賽中獲得第二名,采用復(fù)雜特征工程、梯度增強(qiáng)樹模型和比賽 F1 評(píng)價(jià)指標(biāo)的特殊建模。 一路上,我們記錄了最佳實(shí)踐 對(duì)于 ETL ,特征工程, 建筑 以及為建立基于人工智能的零售預(yù)測(cè)定制最佳模型 解決方案。

這篇博文將引導(dǎo)讀者了解 Kaggle 競(jìng)賽 解釋提高零售業(yè)預(yù)測(cè)的數(shù)據(jù)科學(xué)最佳實(shí)踐。 具體來說,這篇博客文章解釋了 Instacart 市場(chǎng)籃子分析 Kaggle 的競(jìng)爭(zhēng)目標(biāo),介紹了 RAPIDS ,然后提供了一個(gè)工作流,展示了如何直觀地瀏覽數(shù)據(jù)、開發(fā)功能、訓(xùn)練模型和運(yùn)行預(yù)測(cè)。然后,本文將深入探討一些先進(jìn)的特征工程技術(shù),包括模型可解釋性和超參數(shù)優(yōu)化( HPO )。

要更詳細(xì)地了解該方法,請(qǐng)參閱小野寺五典( Kazuki Onodera )對(duì) Medium.com 的精彩訪談。

在 NVIDIA GTC 2021 年 加入 Paul Hendricks ,在那里他主持了一個(gè)關(guān)于 使用 NVIDIA RAPIDS 數(shù)據(jù)科學(xué)庫(kù)進(jìn)行零售預(yù)測(cè)的 ETL 、特征工程和模型開發(fā)的最佳實(shí)踐 的會(huì)議。

訪問此 Jupyter 筆記本 ,我們將在 Instacart 市場(chǎng)籃子分析 Kaggle 競(jìng)爭(zhēng)的背景下分享這些 GPU 加速預(yù)測(cè)的最佳實(shí)踐。

預(yù)測(cè)挑戰(zhàn)

Instacart 市場(chǎng)籃子分析競(jìng)爭(zhēng)面臨挑戰(zhàn) Kaggle 預(yù)測(cè)哪種食品是消費(fèi)者會(huì)在何時(shí)再次購(gòu)買。舉例來說,想象一下,當(dāng)你用完牛奶的時(shí)候,或者你知道的時(shí)候,牛奶已經(jīng)準(zhǔn)備好要加入你的購(gòu)物車了 是的 是時(shí)候再儲(chǔ)備你最喜歡的冰淇淋了。

這種對(duì)理解時(shí)態(tài)行為模式的關(guān)注使得這個(gè)問題與標(biāo)準(zhǔn)項(xiàng)目推薦有很大的不同,標(biāo)準(zhǔn)項(xiàng)目推薦要求用戶 需要 而且偏好通常被認(rèn)為在短時(shí)間內(nèi)是相對(duì)恒定的。而 Netflix MIG 如果你想看另一部電影,那就沒問題了 喜歡 你剛才看的那個(gè), 是的 不太清楚的是,如果你昨天買的話,你會(huì)想重新訂購(gòu)一批新鮮的杏仁黃油或衛(wèi)生紙。

問題概述

這項(xiàng)競(jìng)爭(zhēng)的目標(biāo)是預(yù)測(cè)雜貨店的再訂購(gòu):給定用戶的購(gòu)買歷史(一組訂單,以及每個(gè)訂單中購(gòu)買的產(chǎn)品),他們以前購(gòu)買的哪些產(chǎn)品將在下一個(gè)訂單中重新購(gòu)買?

這個(gè)問題與一般的推薦問題有點(diǎn)不同,在一般的推薦問題中,我們經(jīng)常面臨一個(gè)冷啟動(dòng)的問題,即為新用戶和需要的新項(xiàng)目進(jìn)行預(yù)測(cè) 我們已經(jīng) 從未見過。例如,電影網(wǎng)站可能需要推薦新電影并為新用戶提供建議。

這個(gè)問題的連續(xù)性和基于時(shí)間的性質(zhì)也讓它變得有趣:我們?nèi)绾慰紤]用戶上次購(gòu)買商品以來的時(shí)間?用戶是否有特定的購(gòu)買模式,他們是否在一天的不同時(shí)間購(gòu)買不同種類的商品?

首先, 我們會(huì)的 首先加載一些我們將在本筆記本中使用的模塊,并為任何模塊設(shè)置隨機(jī)種子 隨機(jī)數(shù)發(fā)生器 我們會(huì)用的。

image-1.png

RAPIDS 概述

數(shù)據(jù)科學(xué)家通常處理兩種類型的數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)通常以文本、圖像或視頻的形式出現(xiàn)。結(jié)構(gòu)化數(shù)據(jù)——顧名思義——以結(jié)構(gòu)化的形式出現(xiàn),通常由表或 CSV 表示。我們將把大部分教程的重點(diǎn)放在處理這些類型的數(shù)據(jù)上。

Python 生態(tài)系統(tǒng)中有許多用于結(jié)構(gòu)化表格數(shù)據(jù)的工具,但很少有工具像 pandas 那樣被廣泛使用 pandas 表示表中的數(shù)據(jù),允許數(shù)據(jù)科學(xué)家操作數(shù)據(jù)以執(zhí)行許多有用的操作,如過濾、轉(zhuǎn)換、聚合、合并、可視化等等。

pandas 非常適合處理適合系統(tǒng)內(nèi)存的小型數(shù)據(jù)集。然而,數(shù)據(jù)集越來越大,數(shù)據(jù)科學(xué)家正在處理越來越復(fù)雜的工作負(fù)載,因此需要加速計(jì)算。

cuDF 是 RAPIDS 生態(tài)系統(tǒng)中的一個(gè)包,使數(shù)據(jù)科學(xué)家能夠輕松地將現(xiàn)有的 pandas 工作流程從 CPU 遷移到 GPU,計(jì)算可以利用 GPU 提供的巨大平行性。

熟悉數(shù)據(jù)

本次競(jìng)爭(zhēng)的數(shù)據(jù)集包含多個(gè)文件,這些文件捕獲了 Instacart 用戶一段時(shí)間內(nèi)的訂單,競(jìng)爭(zhēng)的目標(biāo)是預(yù)測(cè)用戶是否會(huì)重新訂購(gòu)產(chǎn)品,特別是這些客戶將重新訂購(gòu)哪些產(chǎn)品。從 Kaggle 數(shù)據(jù)描述中,我們看到我們有超過 300 萬份雜貨訂單,客戶群超過 200000 名 Instacart 用戶。對(duì)于每個(gè)用戶,我們提供 4 到 100 個(gè)訂單,每個(gè)訂單中購(gòu)買的產(chǎn)品的順序,以及他們訂單的時(shí)間和訂單之間時(shí)間的相對(duì)度量。 還提供了 下訂單當(dāng)天的星期和小時(shí),以及訂單之間的相對(duì)時(shí)間度量。

我們的 產(chǎn)品, 過道,和 部門 數(shù)據(jù)集由關(guān)于我們的產(chǎn)品、通道和 部門 分別。每個(gè)數(shù)據(jù)集(產(chǎn)品、通道、部門和訂單等)都有該數(shù)據(jù)集中每個(gè)實(shí)體的唯一標(biāo)識(shí)符映射,例如訂單 id 表示訂單數(shù)據(jù)集中的唯一訂單,產(chǎn)品 id 表示產(chǎn)品數(shù)據(jù)集中的唯一產(chǎn)品,稍后我們將使用這些唯一標(biāo)識(shí)符將所有這些單獨(dú)的數(shù)據(jù)集組合成一個(gè)一致的視圖,用于探索性數(shù)據(jù)分析、特征工程和建模。

下面,我們將讀取數(shù)據(jù)并使用 cuDF 檢查不同的表。

poYBAGJonEWACaEuAAC3JKUjr5s867.png

pYYBAGJonEWAWmxvAAG63wSBVbI914.png

另外, 我們會(huì)的 讀入我們的 [orders] 數(shù)據(jù)集。 第一個(gè) 表示 訂單所屬的集合(之前、訓(xùn)練、測(cè)試)。 附加 文件指定每個(gè)訂單中購(gòu)買的產(chǎn)品。 同樣,從數(shù)據(jù)的 Kaggle 描述中,我們可以看到 order_products__prior.csv 包含所有客戶的先前訂單內(nèi)容?!?reordered ”列表示客戶有包含該產(chǎn)品的上一個(gè)訂單。我們被告知有些訂單沒有重新訂購(gòu)的商品。

poYBAGJonEaAWSz6AADCWYSW6Ac192.png

pYYBAGJonEeASjeGAAHgRIRjfcM309.png

探索數(shù)據(jù)

當(dāng)我們考慮數(shù)據(jù)科學(xué)工作流程時(shí),最重要的步驟之一是 探索性數(shù)據(jù)分析。這是我們檢查數(shù)據(jù)并尋找線索和見解的地方 特征 我們可以使用(或需要?jiǎng)?chuàng)建) 喂 我們的模型。 探索數(shù)據(jù)的方法有很多種,每個(gè)問題的每個(gè)探索性數(shù)據(jù)分析都是不同的 – 然而,它仍然非常重要,因?yàn)樗ㄖ覀兊墓δ芄こ塘鞒蹋罱K確定我們的模型有多準(zhǔn)確。

在 這個(gè) 筆記本,我們看一天中幾個(gè)不同的橫截面。具體來說,我們 檢查訂單數(shù)量的分布、一周中的天數(shù)和客戶通常下訂單的時(shí)間、訂單數(shù)量的分布 數(shù) 自上次訂單以來的天數(shù),以及所有訂單和唯一客戶中最受歡迎的項(xiàng)目(重復(fù)數(shù)據(jù)消除) 為了 忽略那些擁有“最喜歡”的商品并重復(fù)訂購(gòu)的客戶)。

poYBAGJonEiAEdXCAAG24mH1ZNs861.png

圖 2 。探索數(shù)據(jù)

從這里我們看到 分別地 那就是:

訂單不少于 4 個(gè),最多 100 個(gè)。

訂單很高 星期六和星期日 0 和 1 )和低。

大多數(shù) 訂單是在 白天。 和客戶 主要是每周或每月訂購(gòu)一次 ( 見第 7 天和第 30 天的峰值)。

對(duì)產(chǎn)品流行度進(jìn)行了類似的探索性分析 [ 在筆記本中提供 。

特征工程

如果說探索性數(shù)據(jù)分析是我們數(shù)據(jù)科學(xué)工作流程中最重要的部分,那么特征工程則是緊隨其后的第二部分。在這里,我們確定哪些特性應(yīng)該輸入到模型中,并在需要的地方創(chuàng)建特性 相信 他們 MIG 能夠幫助模型更好地進(jìn)行預(yù)測(cè)。

pYYBAGJonEyAf09HAAC_lf751H8280.png

圖 3 :機(jī)器學(xué)習(xí)是一個(gè)迭代過程。

我們首先確定我們的唯一用戶 X 項(xiàng) 組合 把它們分類。 我們會(huì)的 創(chuàng)建一個(gè)數(shù)據(jù)集,其中每個(gè)用戶映射到他們最近的訂單號(hào)、星期幾和小時(shí)數(shù),以及自該訂單以來的天數(shù)。 以及 我們會(huì)的 延伸 我們的 數(shù)據(jù)集,創(chuàng)建標(biāo)簽 和特點(diǎn) 稍后將在我們的機(jī)器學(xué)習(xí)模型中使用,例如:

用戶訂購(gòu)了多少種產(chǎn)品?

用戶在一個(gè)購(gòu)物車中訂購(gòu)了多少產(chǎn)品?

用戶從哪些部門訂購(gòu)了產(chǎn)品?

用戶何時(shí)訂購(gòu)產(chǎn)品(星期幾)?

此用戶以前是否至少訂購(gòu)過一次此產(chǎn)品?

一個(gè)用戶下了多少包含此項(xiàng)的訂單?

解決業(yè)務(wù)問題(培訓(xùn)和預(yù)測(cè))

許多機(jī)器學(xué)習(xí)算法的數(shù)學(xué)運(yùn)算通常是矩陣乘法。這些類型的操作是高度并行化的,并且可以使用 GPU 大大加速 RAPIDS 使以加速方式構(gòu)建機(jī)器學(xué)習(xí)模型變得很容易,同時(shí)仍然使用幾乎相同的界面 學(xué)習(xí)和 XGBoost 。

創(chuàng)建模型的方法有很多種——可以使用線性回歸模型、支持向量機(jī)、基于樹的模型(如 Random Forest 和 XGBoost ),甚至可以使用神經(jīng)網(wǎng)絡(luò)。一般來說,基于樹的模型往往比神經(jīng)網(wǎng)絡(luò)更好地處理用于預(yù)測(cè)的表格數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)的工作原理是將輸入(特征空間)映射到另一個(gè)復(fù)雜的邊界空間,并確定哪些值應(yīng)該屬于該邊界空間中的那些點(diǎn)(回歸、分類)。另一方面,基于樹的模型通過獲取數(shù)據(jù)、識(shí)別列,然后在該列中找到一個(gè)分割點(diǎn)來映射值,同時(shí)優(yōu)化精度。我們可以使用不同的列創(chuàng)建多棵樹,甚至在每棵樹中創(chuàng)建不同的列。

基于樹的模型除了具有更好的精度性能外,還非常容易實(shí)現(xiàn) 解釋 ( 對(duì)預(yù)測(cè)或決策很重要 結(jié)果 根據(jù)預(yù)測(cè) 必須 可能出于合規(guī)性和法律原因,需要解釋和證明 例如 金融、保險(xiǎn)、醫(yī)療)?;跇涞哪P头浅=?,即使在 有 一小組數(shù)據(jù)點(diǎn)。

在下面的部分中, 我們會(huì)的 為我們的 XGBoost 模型設(shè)置不同的參數(shù),并訓(xùn)練五個(gè)不同的模型——每個(gè)模型都在不同的用戶子集上,以避免對(duì)特定的用戶集進(jìn)行過度擬合。

import xgboost as xgb

NFOLD = 5
PARAMS = {
    'max_depth':8,
    'eta':0.1,
    'colsample_bytree':0.4,
    'subsample':0.75,
    'silent':1,
    'nthread':40,
    'eval_metric':'logloss',
    'objective':'binary:logistic',
    'tree_method':'gpu_hist'
         }

models = []
for i in range(NFOLD):
    train_ = train[train.user_id % NFOLD != i]
    valid_ = train[train.user_id % NFOLD == i]
    dtrain = xgb.DMatrix(train_.drop(['user_id', 'product_id', 'label'], axis=1), train_['label'])
    dvalid = xgb.DMatrix(valid_.drop(['user_id', 'product_id', 'label'], axis=1), valid_['label'])
    model = xgb.train(PARAMS, dtrain, 9999, [(dtrain, 'train'),(dvalid, 'valid')],
                      early_stopping_rounds=50, verbose_eval=5)
    models.append(model)
    break

有 幾個(gè) 在 XGBoost 可以運(yùn)行之前應(yīng)該設(shè)置的參數(shù)。

一般參數(shù)與我們使用哪個(gè)助推器進(jìn)行助推器有關(guān),通常是樹模型或線性模型。

助推器參數(shù)取決于您選擇的助推器。

學(xué)習(xí)任務(wù)參數(shù)決定了學(xué)習(xí)場(chǎng)景。例如,回歸任務(wù)可以對(duì)排序任務(wù)使用不同的參數(shù)。

特征重要性

一次 我們已經(jīng) 通過訓(xùn)練我們的模型,我們或許想看看內(nèi)部的工作原理,并了解哪些我們精心設(shè)計(jì)的特性對(duì)預(yù)測(cè)的貢獻(xiàn)最大。這稱為特征重要性?;跇涞念A(yù)測(cè)模型的優(yōu)點(diǎn)之一是了解 不同的 重要性 我們的特色很簡(jiǎn)單。

與 理解力 如果我們的特征有助于模型的準(zhǔn)確性,我們可以選擇刪除 不是嗎 重要或嘗試迭代和創(chuàng)建新特性,重新訓(xùn)練和重新評(píng)估這些新特性是否更重要。 最終,能夠快速迭代并在此工作流中嘗試新事物將導(dǎo)致最精確的模型和最大的投資回報(bào)率(對(duì)于預(yù)測(cè),通常是由于減少缺貨和庫(kù)存不足而節(jié)省成本)。 傳統(tǒng)上,由于計(jì)算強(qiáng)度的原因,迭代會(huì)花費(fèi)大量的時(shí)間。 RAPIDS 允許用戶通過 NVIDIA 加速計(jì)算進(jìn)行模型迭代,因此用戶可以快速迭代并確定性能最佳的模型。

在筆記本的功能重要性部分 , 我們定義了方便代碼來訪問每個(gè)模型中特性的重要性。然后,我們傳入我們訓(xùn)練的模型列表,逐一迭代,并平均所有模型中每個(gè)變量的重要性。最后,我們想象 特征 使用水平條形圖的重要性。

我們特別看到,我們的三個(gè)特征對(duì)我們的預(yù)測(cè)貢獻(xiàn)最大:

user \ u product \ u size –用戶下了多少個(gè)包含此項(xiàng)目的訂單?

用戶\ u 產(chǎn)品\ u t-1 –此用戶以前是否至少訂購(gòu)過一次此產(chǎn)品?

訂單號(hào)–用戶創(chuàng)建的訂單數(shù)。

圖 4 :確定頂部特征。

所有這些都是有道理的,符合我們對(duì)問題的理解。以前下過訂單的客戶更可能重復(fù)該產(chǎn)品的訂單,而多次下該產(chǎn)品訂單的用戶更可能重新訂購(gòu)。此外,客戶創(chuàng)建的訂單數(shù)量與其重新訂購(gòu)的可能性相關(guān)。

代碼使用了特性重要性的默認(rèn) XGBoost 實(shí)現(xiàn)——但是我們可以自由選擇任何實(shí)現(xiàn)或技術(shù)。 一種奇妙的技術(shù)(也是由 NVIDIA Kaggle 大師艾哈邁特發(fā)明的) Erdem )稱為 LOFO 。

從 LOFO GitHub 頁(yè)面的描述中,我們可以看到 LOFO ( Leave One Feature Out ) Importance 根據(jù)選擇的度量來計(jì)算一組特征的重要性,對(duì)于選擇的模型,通過迭代地從集合中刪除每個(gè)特征,并評(píng)估模型的性能,以及選擇的驗(yàn)證方案,基于選定的指標(biāo)。 LOFO 首先評(píng)估包含所有輸入特性的模型的性能,然后一次迭代刪除一個(gè)特性,重新編譯模型,并在驗(yàn)證集上評(píng)估其性能。

這種方法使我們能夠有效地確定哪些特性對(duì)模型很重要。與其他重要類型相比, LOFO 有幾個(gè)優(yōu)點(diǎn):

它不支持顆粒特征。

它 概括 以及看不見的測(cè)試集。

它是模型不可知論的。

它對(duì)包含時(shí)影響性能的特性給予負(fù)面的重視。

超參數(shù) 優(yōu)化( HPO )

在培訓(xùn) XGBoost 模型時(shí),我們使用了以下參數(shù):

PARAMS = { 'max_depth':8, 'eta':0.1, 'colsample_bytree':0.4, 'subsample':0.75, 'silent':1, 'nthread':40, 'eval_metric':'logloss', 'objective':'binary:logistic', 'tree_method':'gpu_hist' }

其中,只有少數(shù)可能會(huì)改變并影響我們模型的準(zhǔn)確性: [最大深度, eta ,,, ColSample , bytree ,] 和 subsample 。然而,這些可能不是最理想的參數(shù)。用最優(yōu)化模型識(shí)別和訓(xùn)練模型的藝術(shù)和科學(xué) 超參數(shù) 稱為超參數(shù)優(yōu)化。

雖然沒有可以按下的魔法按鈕來自動(dòng)識(shí)別最佳超參數(shù),但是有一些技術(shù)可以讓您探索所有可能的超參數(shù)值的范圍,快速測(cè)試它們,并找到最接近的值。

對(duì)這些技術(shù)的全面探索超出了本筆記本的范圍。然而, RAPIDS 集成到許多 云 ML 框架 做 HPO 以及許多不同的 開源 工具。能夠使用 RAPIDS 提供的令人難以置信的加速,可以讓您非??焖俚赝瓿?ETL 、特性工程和模型培訓(xùn)工作流程 實(shí)驗(yàn) – 最終通過大的超參數(shù)空間實(shí)現(xiàn)快速的 HPO 探索,并顯著降低總體擁有成本( TCO )。

結(jié)論

在這個(gè)博客里,我們 瀏覽了 Kaggle 競(jìng)賽的各個(gè)部分,解釋了數(shù)據(jù)科學(xué)在改善零售業(yè)預(yù)測(cè)方面的最佳實(shí)踐。 具體來說,博文解釋道 Instacart Market Basket Analysis Kaggle 的競(jìng)爭(zhēng)目標(biāo)介紹了 RAPIDS ,然后提供了一個(gè)工作流,展示了如何可視化地探索數(shù)據(jù)、開發(fā)功能、訓(xùn)練模型和運(yùn)行預(yù)測(cè)。 然后 檢驗(yàn)過的 具有模型可解釋性和超參數(shù)優(yōu)化( HPO )的特征工程技術(shù)。

關(guān)于作者

Kazuki Onodera 目前在NVIDIA擔(dān)任高級(jí)深度學(xué)習(xí)數(shù)據(jù)科學(xué)家。在此之前,Kazuki在德納擔(dān)任數(shù)據(jù)科學(xué)家。Kazuki 自 2019 年以來一直是卡格爾競(jìng)賽大師,并擁有五項(xiàng)前兩名的比賽排名。

Paul Hendricks 是NVIDIA的高級(jí)解決方案設(shè)計(jì)師,幫助零售商開展深度學(xué)習(xí)和人工智能計(jì)劃。Paul 的背景主要是零售業(yè),過去六年來,他與許多財(cái)富 500 強(qiáng)零售公司合作,實(shí)施數(shù)據(jù)科學(xué)和人工智能解決方案。

Ahmet Erdem 是 Nvidia 的高級(jí)數(shù)據(jù)科學(xué)家,擁有計(jì)算機(jī)工程和人工智能背景。他以前在機(jī)器人和軟件工程方面有經(jīng)驗(yàn)。作為 Nvidia Kaggle 大師團(tuán)隊(duì)的一員,他喜歡解決各種機(jī)器學(xué)習(xí)問題,但他的主要重點(diǎn)是深入學(xué)習(xí)非結(jié)構(gòu)化的表格數(shù)據(jù)。除了比賽,他還擁有幾個(gè)開源項(xiàng)目。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5444

    瀏覽量

    108575
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5050

    瀏覽量

    134016
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8532

    瀏覽量

    136016
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    拆解零售商部署 SD-WAN 四大障礙

    成為連鎖企業(yè)網(wǎng)絡(luò)升級(jí)的關(guān)鍵選擇。根據(jù)IDC預(yù)測(cè),到2025年,70%的SD-WAN解決方案將內(nèi)置AI驅(qū)動(dòng)的分析模塊。然而,在SD-WAN的部署道路上,零售商卻面臨著
    的頭像 發(fā)表于 10-11 14:20 ?320次閱讀
    拆解<b class='flag-5'>零售</b>商部署 SD-WAN 四大障礙

    智慧零售全面爆發(fā),人工智能(AI)這4款芯片成行業(yè)首選

    智慧零售(Smart Retail)是指利用人工智能(AI)、大數(shù)據(jù)、物聯(lián)網(wǎng)(IoT)、云計(jì)算、5G、區(qū)塊鏈、AR/VR等前沿技術(shù),深度整合零售行業(yè)的“人(消費(fèi)者)、貨(商品)、場(chǎng)(購(gòu)物場(chǎng)景
    的頭像 發(fā)表于 09-04 14:46 ?359次閱讀
    智慧<b class='flag-5'>零售</b>全面爆發(fā),<b class='flag-5'>人工智能</b>(AI)這4款芯片成行業(yè)首選

    無人RFID自動(dòng)收銀機(jī)配套的智慧新零售解決方案

    在數(shù)字經(jīng)濟(jì)與消費(fèi)升級(jí)的浪潮下,傳統(tǒng)零售正經(jīng)歷從“人找貨”到“貨找人”的范式革命。無人RFID自動(dòng)收銀機(jī)配套的智慧新零售解決方案,憑借“精準(zhǔn)識(shí)別+無感支付+數(shù)據(jù)閉環(huán)”的核心優(yōu)勢(shì),已在政務(wù)大廳、購(gòu)物中心
    的頭像 發(fā)表于 09-02 16:42 ?583次閱讀
    無人RFID自動(dòng)收銀機(jī)配套的智慧新<b class='flag-5'>零售</b><b class='flag-5'>解決方案</b>

    無人超市解決方案 智慧新零售解決方案

    ?在零售行業(yè)競(jìng)爭(zhēng)日益激烈的當(dāng)下,傳統(tǒng)超市面臨著一系列難以回避的挑戰(zhàn),而無人超市解決方案正是為破解這些痛點(diǎn)而生。▲傳統(tǒng)超市普遍存在人工成本高企的問題:從收銀員、導(dǎo)購(gòu)
    的頭像 發(fā)表于 08-22 10:22 ?576次閱讀
    無人超市<b class='flag-5'>解決方案</b> 智慧新<b class='flag-5'>零售</b><b class='flag-5'>解決方案</b>

    AI智能零售柜,即拿即走,無感支付

    方案背景AI智能柜是為了適應(yīng)日漸普及的無人智能零售業(yè)務(wù)而研發(fā)的一整套高集成高性能的解決方案,基于當(dāng)先的
    的頭像 發(fā)表于 07-25 15:22 ?492次閱讀
    AI<b class='flag-5'>智能</b><b class='flag-5'>零售</b>柜,即拿即走,無感支付

    開售RK3576 高性能人工智能主板

    芯片讓產(chǎn)品變得更加完美,被廣 泛的應(yīng)用到 AI 服務(wù)器、人臉支付設(shè)備、安防、醫(yī)療、交通、金融、工控、智慧教育、智能零售等 等 AI 智能領(lǐng)域。由于其硬件平臺(tái)化、Android 智能化的
    發(fā)表于 04-23 10:55

    MWC 2025 | 移遠(yuǎn)通信推出AI智能無人零售解決方案,以“動(dòng)態(tài)視覺+邊緣計(jì)算”引領(lǐng)智能零售新潮流

    )上宣布推出全新AI智能無人零售解決方案,憑借 “動(dòng)態(tài)視覺+邊緣計(jì)算”的前沿核心能力,致力于重新定義智能零售體驗(yàn)。 ? 技術(shù)迭代:從機(jī)械到A
    發(fā)表于 03-05 13:42 ?286次閱讀
    MWC 2025 | 移遠(yuǎn)通信推出AI<b class='flag-5'>智能</b>無人<b class='flag-5'>零售</b><b class='flag-5'>解決方案</b>,以“動(dòng)態(tài)視覺+邊緣計(jì)算”引領(lǐng)<b class='flag-5'>智能</b><b class='flag-5'>零售</b>新潮流

    MWC 2025 | 移遠(yuǎn)通信推出AI智能無人零售解決方案,以“動(dòng)態(tài)視覺+邊緣計(jì)算”引領(lǐng)智能零售新潮流

    宣布推出全新AI智能無人零售解決方案,憑借“動(dòng)態(tài)視覺+邊緣計(jì)算”的前沿核心能力,致力于重新定義智能零售體驗(yàn)。技術(shù)迭代:從機(jī)械到AI視覺的跨越
    的頭像 發(fā)表于 03-04 19:02 ?696次閱讀
    MWC 2025 | 移遠(yuǎn)通信推出AI<b class='flag-5'>智能</b>無人<b class='flag-5'>零售</b><b class='flag-5'>解決方案</b>,以“動(dòng)態(tài)視覺+邊緣計(jì)算”引領(lǐng)<b class='flag-5'>智能</b><b class='flag-5'>零售</b>新潮流

    云里物里數(shù)字化零售解決方案落地歐洲電器商城

    隨著全球零售業(yè)加速數(shù)字化轉(zhuǎn)型,越來越多的零售賣場(chǎng)采用電子價(jià)簽替代紙質(zhì)價(jià)簽。近期,歐洲某知名電器商城(主營(yíng)電子產(chǎn)品、家用電器及數(shù)碼產(chǎn)品)正式上線云里物里數(shù)字化零售解決方案,構(gòu)建數(shù)字化智顯
    的頭像 發(fā)表于 02-28 17:07 ?806次閱讀

    科大訊飛在杭成立新零售公司

    ,電子產(chǎn)品銷售、辦公設(shè)備銷售以及辦公設(shè)備耗材銷售構(gòu)成了其主營(yíng)業(yè)務(wù)的重要組成部分。此外,公司還涉足人工智能硬件銷售領(lǐng)域,緊跟當(dāng)前科技發(fā)展的潮流。 值得注意的是,杭州訊飛新零售有限公司在信息系統(tǒng)集成服務(wù)和智能機(jī)器人銷售
    的頭像 發(fā)表于 02-19 13:54 ?720次閱讀

    SUSE Edge零售解決方案發(fā)展勢(shì)頭強(qiáng)勁

    深刻的變革。SUSE Edge零售解決方案正是為應(yīng)對(duì)這一變革而生,它專注于滿足零售商的關(guān)鍵需求,通過提供開放式基礎(chǔ)架構(gòu)軟件,助力打造一系列創(chuàng)新解決方案。 這些創(chuàng)新
    的頭像 發(fā)表于 02-11 09:17 ?590次閱讀

    Supermicro攜手NVIDIA,為零售邊緣服務(wù)器注入AI動(dòng)力

    )領(lǐng)域均有著深厚的積累。近日,SMCI在美國(guó)全國(guó)零售聯(lián)盟(NRF)年展上,展示了其與NVIDIA攜手為零售業(yè)帶來的最新解決方案。 隨著生成式人工智能(GenAI)技術(shù)的不斷成熟與普及,
    的頭像 發(fā)表于 01-21 11:10 ?793次閱讀

    聯(lián)想發(fā)布全新智能零售解決方案

    近日,聯(lián)想(Lenovo)在NRF 2025大會(huì)上驚艷亮相,推出了三款集機(jī)器人與人工智能技術(shù)于一體的全新零售解決方案。這些創(chuàng)新方案均已在商業(yè)環(huán)境中進(jìn)行了實(shí)地測(cè)試,展現(xiàn)出了卓越的性能與實(shí)
    的頭像 發(fā)表于 01-16 14:07 ?655次閱讀

    云里物里數(shù)字零售解決方案亮相NRF 2025

    1月12 - 14日,NRF2025 美國(guó)零售大展在紐約賈維茨會(huì)展中心盛大舉行,云里物里攜創(chuàng)新技術(shù)與解決方案驚艷亮相,展示數(shù)字化與智能化如何重塑全球零售業(yè)。
    的頭像 發(fā)表于 01-16 13:52 ?801次閱讀

    物聯(lián)網(wǎng)如何改變零售行業(yè)

    零售商深知,節(jié)日的熱鬧氣氛讓顧客們忙著尋找完美的禮物和抓住年終優(yōu)惠。這一直是公司最繁忙的時(shí)期之一,客流量和銷售額大幅增加。為應(yīng)對(duì)激增的需求,零售商正轉(zhuǎn)向引入物聯(lián)網(wǎng)(IoT)技術(shù),以通過智能零售
    的頭像 發(fā)表于 01-14 09:27 ?1007次閱讀