chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

成功構建文本分析工作流的四個步驟

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Seth DeLand ? 2022-11-23 15:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文本分析(從原始人類語言中發(fā)現(xiàn)隱藏模式以實現(xiàn)更好的決策和預測的過程)為工業(yè)和預測性維護系統(tǒng)提供了幾個好處。這些分析使工程師能夠利用原始文本數(shù)據(jù)輕松生成有關維護記錄的見解,并構建故障預測算法以預防潛在問題。

以非公路商業(yè)空間為例,在建筑工地上使用重型設備:如果一臺重型設備發(fā)生故障,在修復系統(tǒng)所需的時間和成本與施工停滯時現(xiàn)場的停機時間之間,可能會發(fā)生代價高昂的故障。傳統(tǒng)上,來自此設備的遙測數(shù)據(jù)已用于構建可預測未來故障的預測性維護模型。但是,在機械師和操作員的文本注釋中也有關于過去故障及其原因的寶貴信息。工程師可以利用此文本數(shù)據(jù)來增強預測性維護模型,并確定應解決的模式和故障模式。

文本分析的挑戰(zhàn)在于大量的非結構化原始文本數(shù)據(jù)集,這可能會使分析工具不堪重負。這使得工程師更難快速直觀地提取用戶可能獲得的所有有價值的信息。但是,工程師可以通過正確的工具和遵守端到端工作流程來克服這些障礙。

當涉及到端到端文本分析工作流程時,工程師需要了解什么?工作流中有四個主要階段:

poYBAGN9yKuALPZSAACS46Gxj18876.png

圖1.端到端文本分析工作流。

第 1 階段:數(shù)據(jù)訪問和探索

文本數(shù)據(jù)將來自各種來源,包括數(shù)據(jù)庫、內部文件存儲庫和 Internet,并且格式多種多樣。正確準備數(shù)據(jù)是成功工作流程的關鍵因素。適當?shù)臄?shù)據(jù)準備會將原始文本數(shù)據(jù)清理并預處理為“清理數(shù)據(jù)”以供分析。

以詞云為例。該模型將數(shù)據(jù)轉換為一種格式,使工程師能夠快速輕松地可視化正在使用的單詞以及數(shù)據(jù)池中最常見的短語。當與應用其領域專業(yè)知識的工程師相結合時,諸如詞云之類的可視化效果有利于更大的文本分析工作流程,因為工程師可以輕松發(fā)現(xiàn)數(shù)據(jù)可能缺少標記或需要清理的地方,因為他們了解給定環(huán)境或用例中的典型問題或問題。

第 2 階段:數(shù)據(jù)預處理

這些可視化效果還有助于指導需要采取的后續(xù)操作。如圖 2 所示,停用詞(不增加價值的低信息詞)很常見,它們的存在會扭曲可視化結果。在工程師開始模型開發(fā)過程之前,他們必須清理原始文本數(shù)據(jù),以過濾掉這些“停用詞”,并輸入真實、重要的數(shù)據(jù)以傳遞給建模過程。預處理階段允許用戶從原始文本中提取有意義的單詞。

數(shù)據(jù)清理通常是數(shù)據(jù)分析中最耗時的部分,根據(jù)數(shù)據(jù)量,清理步驟可能需要多次迭代。但是,投入所需的額外時間和資源所帶來的投資回報率允許在文本分析工作流的后期使用更準確和成功的模型。在許多情況下,干凈的詞云會傳遞有關文本頁面上實際內容的更多信息。

文本分析工具箱等工具通過提供用于預處理、分析和建模文本數(shù)據(jù)的算法和可視化,幫助用戶為模型構建過程做好準備,從而為工程師解決數(shù)據(jù)清理痛點。

這些工具從流行的文件格式中提取文本,從設備日志、新聞提要、調查、操作員報告和社交媒體等來源預處理原始文本,提取利用文本、數(shù)字和其他類型的數(shù)據(jù)的單個單詞或多詞短語 (n-gram),將文本轉換為數(shù)字表示,然后構建統(tǒng)計模型。

第 3 階段:預測模型構建

清理和預處理數(shù)據(jù)后,就可以開始使用機器學習深度學習算法構建預測模型了。

這就是文本分析的優(yōu)勢所在:它發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式并以直觀的格式顯示它們,允許用戶消化數(shù)據(jù),然后采取糾正措施解決問題,然后再進一步進入工作流程。

以將干凈的文本數(shù)據(jù)轉換為數(shù)字形式為例。工程師可以應用“詞袋”等建模方法,該方法根據(jù)提供的文本數(shù)據(jù)創(chuàng)建一個數(shù)字矩陣,顯示每個單詞的使用頻率。從那里,工程師可以使用預測模型,如潛在狄利克雷分配(LDA)模型,該模型可以擬合到單詞/頻率矩陣中,以發(fā)現(xiàn)文本數(shù)據(jù)集中隱藏的主題和見解。

LDA 模型可以生成與數(shù)據(jù)中“隱藏主題”相關的詞云,顯示將文本數(shù)據(jù)擬合到此預測模型中后如何開始出現(xiàn)模式,從而幫助為創(chuàng)建相應問題的解決方案提供信息。

使用新的敘述對模型(如上面示例中的模型)進行測試以驗證模型的預測是否正確后,可以建立自動警報,以便系統(tǒng)在需要注意的任何問題上向響應團隊發(fā)送標志。如果位置數(shù)據(jù)也可用,則結果會發(fā)現(xiàn)某些主題(例如,標記的問題)與其位置數(shù)據(jù)之間存在相關性,因此該模型還可以通過使用多個數(shù)據(jù)流來補充文本數(shù)據(jù)來提醒響應團隊潛在的更大基礎設施問題。

第 4 階段:見解和預測模型部署

使用文本分析設置模型并驗證其可接受的性能后,可通過多種方式與工程團隊和/或管理層共享結果和模型,包括生成報告或交互式筆記本(例如 MATLAB Live 編輯器)、將數(shù)據(jù)傳送到桌面或 Web 應用程序(例如 MATLAB 應用程序設計器),或在生產服務器或 Web 應用程序服務器上托管應用程序。

對于工業(yè)自動化、機械、汽車制造、航空航天設計或能源分配等行業(yè)的工程師來說,文本分析可以幫助他們執(zhí)行復雜的數(shù)值分析,以識別可以帶來更好結果并改進預測性維護等功能的想法和概念組。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編輯器
    +關注

    關注

    1

    文章

    828

    瀏覽量

    32934
  • 機器學習
    +關注

    關注

    66

    文章

    8556

    瀏覽量

    137021
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124438
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    工作流節(jié)點說明開始節(jié)點

    開始節(jié)點是工作流的起始節(jié)點,用于設定啟動工作流需要的輸入信息。開始節(jié)點只有輸入?yún)?shù),沒有輸出等其他參數(shù)。開始節(jié)點中默認有一輸入?yún)?shù)USER_INPUT,一默認的輸入?yún)?shù)FILES_
    發(fā)表于 03-13 14:52

    開發(fā)工作流創(chuàng)建工作流

    擇要使用的節(jié)點。 2、將節(jié)點按任務流程相連接。 3、配置節(jié)點的輸入和輸出參數(shù) 測試并發(fā)布工作流 開發(fā)者如需在智能體內使用該工作流,必須先完成工作流的上架。 1、單擊【試運行】,運行成功
    發(fā)表于 03-10 10:05

    PCBA生產過程的四個主要環(huán)節(jié)?

    PCBA生產過程的四個主要環(huán)節(jié) PCBA(Printed Circuit Board Assembly)生產過程是將電子元器件組裝到印刷電路板(PCB)上,形成完整電子產品的過程。雖然直接參考資料
    的頭像 發(fā)表于 03-05 11:13 ?203次閱讀

    虛幻引擎5在建筑可視化中的應用:趨勢、挑戰(zhàn)與基于Perforce P4的工作流

    UE5正在重塑建筑可視化:實時交互、AI輔助、BIM聯(lián)動......技術紅利已來,工作流卻拖了后腿?這篇干貨解析了趨勢和痛點,更揭秘了如何用Perforce P4打造高效的UE5工作流
    的頭像 發(fā)表于 02-27 15:26 ?334次閱讀
    虛幻引擎5在建筑可視化中的應用:趨勢、挑戰(zhàn)與基于Perforce P4的<b class='flag-5'>工作流</b>程

    安寶特方案丨AI 識別遇上 AR 工作流,PCB 質控迎來新的「黃金時代」

    差異和流程不一致長期制約良率,而基于AR標準化工作流+AI識別的應用,正讓所有工位實現(xiàn)“無差別準確執(zhí)行”。01破解人工質檢困境:讓標準化操作如臨現(xiàn)場Arbigtec
    的頭像 發(fā)表于 02-10 11:35 ?377次閱讀
    安寶特方案丨AI 識別遇上 AR <b class='flag-5'>工作流</b>,PCB 質控迎來新的「黃金時代」

    小藝開放平臺平臺功能

    選擇插件、工作流,響應用戶需求。LLM模式適用于簡單對話、知識問答、基礎內容生成等場景。 工作流模式 工作流模式是一種基于規(guī)則化流程的智能體編排方式。開發(fā)者將復雜任務拆解為有序的規(guī)則化步驟
    發(fā)表于 01-30 15:24

    合科泰MOSFET選型的四個核心步驟

    面對數(shù)據(jù)手冊中繁雜的參數(shù),如何快速鎖定適合應用的 MOSFET?遵循以下四個核心步驟,您能系統(tǒng)化地完成選型,避免因關鍵參數(shù)遺漏導致的設計風險。
    的頭像 發(fā)表于 12-19 10:33 ?753次閱讀

    軸無人機是如何工作的?

    才能打造一架屬于自己的軸飛行器?一、軸飛行器如何飛行?本文將重點介紹軸飛行器,但本文解釋的很多內容也適用于其他配備四個以上螺旋槳的飛行器。因此,如果你正在
    的頭像 發(fā)表于 11-14 10:28 ?867次閱讀
    <b class='flag-5'>四</b>軸無人機是如何<b class='flag-5'>工作</b>的?

    借助NVIDIA技術構建實時視覺檢測工作流

    構建一套可靠的視覺檢測流程來實現(xiàn)缺陷檢測和質量控制面臨諸多挑戰(zhàn),例如針對特定領域定制通用視覺 AI 模型、在算力受限的邊緣設備上優(yōu)化模型規(guī)模,以及高效實時部署以實現(xiàn)最大的推理吞吐量。
    的頭像 發(fā)表于 10-21 11:01 ?969次閱讀
    借助NVIDIA技術<b class='flag-5'>構建</b>實時視覺檢測<b class='flag-5'>工作流</b>

    【產品介紹】Altair SimLab可連接CAD的多物理場工作流

    AltairSimLab可連接CAD的多物理場工作流SimLab是一種以流程為導向的多學科仿真環(huán)境,能夠準確分析復雜裝配件的性能。包括結構、熱和流體動力學在內的多物理場可以通過高度自動化的建模任務
    的頭像 發(fā)表于 09-19 17:02 ?822次閱讀
    【產品介紹】Altair SimLab可連接CAD的多物理場<b class='flag-5'>工作流</b>

    設計優(yōu)先方法論實踐:SmartBear API Hub +ReadyAPI組合使用,構建高效的API開發(fā)

    設計優(yōu)先是一種在編寫代碼和執(zhí)行測試之前,優(yōu)先設計API接口的開發(fā)方式,能夠幫助提升團隊協(xié)作效率、加快開發(fā)進度、減少Bug和返工,并改善用戶體驗。如何實現(xiàn)?——將該與SmartBear API Hub、ReadyAPI相結合,可共同構建完整、一體化的開發(fā)
    的頭像 發(fā)表于 06-05 16:03 ?589次閱讀
    設計優(yōu)先方法論實踐:SmartBear API Hub +ReadyAPI組合使用,<b class='flag-5'>構建</b>高效的API開發(fā)<b class='flag-5'>流</b>

    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關端口 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關端口相關產品參數(shù)、數(shù)據(jù)手冊,更有
    發(fā)表于 05-28 18:33
    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個</b>線性 TRx 開關端口 skyworksinc

    四個方面深入剖析富捷電阻的優(yōu)勢

    理成本的電阻產品系列,為電子行業(yè)提供了一可靠的選擇。本文將從產品結構、同業(yè)對比、成本分析以及品質保障四個方面深入剖析富捷電阻的優(yōu)勢,展現(xiàn)其如何在激烈的市場競爭中脫穎而出。
    的頭像 發(fā)表于 05-09 10:47 ?1157次閱讀
    從<b class='flag-5'>四個</b>方面深入剖析富捷電阻的優(yōu)勢

    非技術人員如何用n8n + DeepSeek打造AI自動化工作流

    ? 是一開源的低代碼自動化工作流工具,允許用戶通過可視化界面連接不同的應用程序和服務,實現(xiàn)任務自動化。 掌握n8n,公司中的非技術人員也能快速上手自動化,通過畫布的方式,構建自動化工作流
    的頭像 發(fā)表于 04-09 14:28 ?8484次閱讀
    非技術人員如何用n8n + DeepSeek打造AI自動化<b class='flag-5'>工作流</b>?

    【Android開發(fā)者必看】使用JetBrains TeamCity為Android項目構建CI/CD管道詳細指南

    【CI/CD】定義明確的構建、測試和部署工作流對Android應用的開發(fā)至關重要。JetBrains TeamCity是一用于構建可靠管道的CI/CD平臺,可與流行的Android開
    的頭像 發(fā)表于 03-21 15:42 ?1240次閱讀
    【Android開發(fā)者必看】使用JetBrains TeamCity為Android項目<b class='flag-5'>構建</b>CI/CD管道詳細指南