人們?nèi)粘I詈凸I(yè)生產(chǎn)中產(chǎn)生的海量數(shù)據(jù)被廣泛存儲于結(jié)構(gòu)化數(shù)據(jù)庫中,如何高效利用這些結(jié)構(gòu)化數(shù)據(jù)成為近年學術研究和產(chǎn)業(yè)應用都十分關注的熱點。
盡管直接編寫SQL語句和數(shù)據(jù)庫進行交互是目前最直接的方法,但是非計算機專業(yè)的從業(yè)人員需要耗費大量時間學習其語法,即便是SQL專家,反復編寫也是單調(diào)低效的工作。
近年來基于自然語言發(fā)展起來的數(shù)據(jù)庫查詢接口(NLIDB)為用戶與數(shù)據(jù)庫進行交互提供了一種簡潔高效的方法。NLIDB背后的核心技術是Text-to-SQL語義解析,其作用是在給定相應的數(shù)據(jù)庫模式結(jié)構(gòu)下,將用戶的自然語言問句轉(zhuǎn)換成SQL查詢語句。
Text-to-SQL任務是自然語言處理任務中最具挑戰(zhàn)性的任務之一,該任務的輸入既要考慮用戶的自然語言問題也要考慮數(shù)據(jù)庫的模式結(jié)構(gòu),此外,該任務的輸出是結(jié)構(gòu)化的SQL語句。
登頂中文千言榜單
思必馳-上海交大人機交互聯(lián)合實驗室團隊在繼去年6月份取得Text-to-SQL任務英文基準榜單Spider第一名后,近期又取得Text-to-SQL任務中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務三個最經(jīng)典的中文數(shù)據(jù)集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團隊在之前提出的線圖增強的Text-to-SQL模型LGESQL的基礎上,進一步提出了結(jié)構(gòu)化的動態(tài)解碼方案GTL,使得模型既能很好地編碼結(jié)構(gòu)化的異構(gòu)輸入,同時也能夠?qū)崿F(xiàn)高效準確的結(jié)構(gòu)化解碼。
-
編碼
+關注
關注
6文章
968瀏覽量
55751 -
數(shù)據(jù)集
+關注
關注
4文章
1224瀏覽量
25434 -
思必馳
+關注
關注
4文章
337瀏覽量
15316
發(fā)布評論請先 登錄
評論