線上庫有6個表存在重復數(shù)據(jù),其中2個表比較大,一個96萬+、一個30萬+,因為之前處理過相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡單,就是連接數(shù)據(jù)庫,查出來重復數(shù)據(jù),循環(huán)刪除。
emmmm,但是這個效率嘛,實在是太低了,1秒一條,重復數(shù)據(jù)大約2萬+,預(yù)估時間大約在8個小時左右。。。
盲目依靠前人的東西,而不去自己思考是有問題的!總?cè)ハ胫霸趺纯梢?,現(xiàn)在怎么不行了,這也是有問題的!我發(fā)現(xiàn),最近確實狀態(tài)不太對,失去了探索和求知的欲望,今天算是一個警醒,頗有迷途知返的感覺。
言歸正傳,下面詳細介紹去重步驟
CREATE TABLE `animal` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(20) DEFAULT NULL, `age` int(11) DEFAULT NULL, PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
INSERT INTO `pilipa_dds`。`student` (`id`, `name`, `age`) VALUES (‘1’, ‘cat’, ‘12’);INSERT INTO `pilipa_dds`。`student` (`id`, `name`, `age`) VALUES (‘2’, ‘dog’, ‘13’);INSERT INTO `pilipa_dds`。`student` (`id`, `name`, `age`) VALUES (‘3’, ‘camel’, ‘25’);INSERT INTO `pilipa_dds`。`student` (`id`, `name`, `age`) VALUES (‘4’, ‘cat’, ‘32’);INSERT INTO `pilipa_dds`。`student` (`id`, `name`, `age`) VALUES (‘5’, ‘dog’, ‘42’);
目標:我們要去掉name相同的數(shù)據(jù)
先看看哪些數(shù)據(jù)重復了
SELECT name,count( 1 ) FROM student GROUP BYNAME HAVING count( 1 ) 》 1;
輸出:
name count(1) cat 2 dog 2
name為cat和dog的數(shù)據(jù)重復了,每個重復的數(shù)據(jù)有兩條;
Select * From 表 Where 重復字段 In (Select 重復字段 From 表 Group By 重復字段 Having Count(1)》1)
刪除全部重復數(shù)據(jù),一條不留
直接刪除會報錯
DELETE FROM student WHERE NAME IN ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) 》 1)
報錯:
1093 - You can‘t specify target table ’student‘ for update in FROM clause, Time: 0.016000s
原因是:更新這個表的同時又查詢了這個表,查詢這個表的同時又去更新了這個表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作
解決辦法:把要更新的幾列數(shù)據(jù)查詢出來做為一個第三方表,然后篩選更新。
DELETE FROM student WHERE NAME IN ( SELECT t.NAME FROM ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) 》 1 ) t)
刪除表中刪除重復數(shù)據(jù),僅保留一條
在刪除之前,我們可以先查一下,我們要刪除的重復數(shù)據(jù)是啥樣的
SELECT * FROM student WHERE id NOT IN ( SELECT t.id FROM ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t )
啥意思呢,就是先通過name分組,查出id最小的數(shù)據(jù),這些數(shù)據(jù)就是我們要留下的火種,那么再查詢出id不在這里面的,就是我們要刪除的重復數(shù)據(jù)。
開始刪除重復數(shù)據(jù),僅留一條
很簡單,剛才的select換成delete即可
DELETE FROM student WHERE id NOT IN ( SELECT t.id FROM ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t )
90萬+的表執(zhí)行起來超級快。
(版權(quán)歸原作者所有,侵刪)
來源:telami.cn/2019/mysql-removes-duplicate-data-and-keeping-only-one/
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7292瀏覽量
93386 -
python
+關(guān)注
關(guān)注
56文章
4848瀏覽量
88953 -
腳本
+關(guān)注
關(guān)注
1文章
405瀏覽量
28949
原文標題:MySQL 大批量插入,如何過濾掉重復數(shù)據(jù)?
文章出處:【微信號:aming_linux,微信公眾號:阿銘linux】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
ulog_tag_lvl_filter_set()函數(shù)無法實現(xiàn)按照文檔說明那樣實現(xiàn)按模塊過濾,怎么解決?
在rt-thread studio環(huán)境中之前編譯成功的項目(1234)重命名(test)后出現(xiàn)大批量的錯誤是什么原因造成?如何處理?
邊緣計算網(wǎng)關(guān)的數(shù)據(jù)過濾功能體現(xiàn)在哪

東風新能源車大批量簽約交付
應(yīng)用案例丨一鍵測量300+工件,QM系列閃測儀批量檢測

小批量SMT加工的“定制化”與大批量生產(chǎn)的“標準化”:差異全解析
MySQL數(shù)據(jù)備份與恢復策略
CYUSB3014在FPGA發(fā)送的每兩幀有效數(shù)據(jù)之間,會出現(xiàn)很多冗余的重復數(shù)據(jù),問題出在哪里?
使用插件將Excel連接到MySQL/MariaDB

MySQL數(shù)據(jù)庫的安裝

嵐圖汽車獲TüV南德大批量WVTA證書,加速全球化進程
數(shù)據(jù)庫數(shù)據(jù)恢復—Mysql數(shù)據(jù)庫表記錄丟失的數(shù)據(jù)恢復流程

評論