人們日常生活和工業(yè)生產中產生的海量數(shù)據(jù)被廣泛存儲于結構化數(shù)據(jù)庫中,如何高效利用這些結構化數(shù)據(jù)成為近年學術研究和產業(yè)應用都十分關注的熱點。
盡管直接編寫SQL語句和數(shù)據(jù)庫進行交互是目前最直接的方法,但是非計算機專業(yè)的從業(yè)人員需要耗費大量時間學習其語法,即便是SQL專家,反復編寫也是單調低效的工作。
近年來基于自然語言發(fā)展起來的數(shù)據(jù)庫查詢接口(NLIDB)為用戶與數(shù)據(jù)庫進行交互提供了一種簡潔高效的方法。NLIDB背后的核心技術是Text-to-SQL語義解析,其作用是在給定相應的數(shù)據(jù)庫模式結構下,將用戶的自然語言問句轉換成SQL查詢語句。
Text-to-SQL任務是自然語言處理任務中最具挑戰(zhàn)性的任務之一,該任務的輸入既要考慮用戶的自然語言問題也要考慮數(shù)據(jù)庫的模式結構,此外,該任務的輸出是結構化的SQL語句。
登頂中文千言榜單
思必馳-上海交大人機交互聯(lián)合實驗室團隊在繼去年6月份取得Text-to-SQL任務英文基準榜單Spider第一名后,近期又取得Text-to-SQL任務中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務三個最經典的中文數(shù)據(jù)集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團隊在之前提出的線圖增強的Text-to-SQL模型LGESQL的基礎上,進一步提出了結構化的動態(tài)解碼方案GTL,使得模型既能很好地編碼結構化的異構輸入,同時也能夠實現(xiàn)高效準確的結構化解碼。
-
編碼
+關注
關注
6文章
982瀏覽量
56439 -
數(shù)據(jù)集
+關注
關注
4文章
1229瀏覽量
25911 -
思必馳
+關注
關注
4文章
362瀏覽量
15789
發(fā)布評論請先 登錄
評論