深勢(shì)科技是全球AI for Science開(kāi)拓者,依托在交叉學(xué)科領(lǐng)域的深耕,構(gòu)建了“深勢(shì)·宇知”AI for Science大模型體系,并進(jìn)一步解決科學(xué)研究和工業(yè)研發(fā)領(lǐng)域的關(guān)鍵問(wèn)題,將眾多學(xué)科的科研方法從“實(shí)驗(yàn)試錯(cuò) / 計(jì)算機(jī)”時(shí)代帶入了“預(yù)訓(xùn)練模型時(shí)代”。

基于AI for Science,深勢(shì)科技打造了全球首個(gè)覆蓋“讀文獻(xiàn)-做計(jì)算-做實(shí)驗(yàn)-多學(xué)科協(xié)同”的AI科研平臺(tái)——玻爾,以全新升級(jí)的“科學(xué)導(dǎo)航( Science Navigator, SN )”為核心,讓科學(xué)家們擺脫繁瑣的信息搜索,把更多時(shí)間交給真正的科研。
玻爾正在重構(gòu)科研流程、釋放科研創(chuàng)造力。該平臺(tái)以先進(jìn)的人工智能技術(shù)為核心,系統(tǒng)性解決科研人員在文獻(xiàn)篩選、跨學(xué)科知識(shí)發(fā)現(xiàn)及學(xué)術(shù)資源獲取等環(huán)節(jié)中的關(guān)鍵痛點(diǎn),尤其有效應(yīng)對(duì)了信息過(guò)載、檢索繁雜、整理耗時(shí)等挑戰(zhàn)。面向文獻(xiàn)數(shù)量龐大、更新迅速、格式多樣等現(xiàn)實(shí)問(wèn)題;同時(shí),這些文獻(xiàn)數(shù)據(jù)表逾10萬(wàn)張,內(nèi)容模態(tài)多元復(fù)雜,從英語(yǔ)、日語(yǔ)、德語(yǔ)的文本數(shù)據(jù),到分子結(jié)構(gòu)圖、實(shí)驗(yàn)曲線圖譜等非結(jié)構(gòu)化視覺(jué)信息。玻爾為全球科研人員提供“一站式”的智能研究支持。
隨著業(yè)務(wù)規(guī)模的快速擴(kuò)張和數(shù)據(jù)復(fù)雜性的急劇提升,對(duì)高效、智能數(shù)據(jù)處理能力的需求也水漲船高。以往JSON文件、壓縮文本等多種格式數(shù)據(jù)抵達(dá)時(shí),技術(shù)團(tuán)隊(duì)常需為每種格式定制開(kāi)發(fā)解析程序,耗時(shí)有數(shù)周之久;在大規(guī)模文獻(xiàn)翻譯任務(wù)中,確保圖示、標(biāo)注等關(guān)鍵信息的完整性和傳遞精度成為關(guān)鍵訴求;此外,文本與圖像數(shù)據(jù)處于不同存儲(chǔ)位置,實(shí)現(xiàn)高效的跨模態(tài)關(guān)聯(lián)檢索存在一定延遲,制約了知識(shí)庫(kù)更新及行業(yè)報(bào)告的時(shí)效性。
為攻克這些技術(shù)難點(diǎn),深勢(shì)科技與火山引擎數(shù)智平臺(tái)深度合作,融合火山引擎DataSail數(shù)據(jù)集成工具、AI數(shù)據(jù)湖服務(wù)LAS及火山方舟模型服務(wù)的核心能力。

在數(shù)據(jù)處理流程上,LAS的可視化操作界面提升了開(kāi)發(fā)效率,技術(shù)團(tuán)隊(duì)得以將更多資源投入核心算法研發(fā)。通過(guò)數(shù)據(jù)清洗預(yù)處理與火山方舟模型服務(wù)的協(xié)同作用,整體翻譯準(zhǔn)確率提升約5%。在圖片處理方面,調(diào)用大模型判斷圖片所屬科學(xué)領(lǐng)域及關(guān)注內(nèi)容,調(diào)用圖片理解模型生成向量并回寫,圖片處理的效率及準(zhǔn)確率也有所提升。
面向高峰業(yè)務(wù)場(chǎng)景,火山引擎提供了充沛的算力支持,通過(guò)按需調(diào)整的流量配額,保障了大流量下的系統(tǒng)穩(wěn)定性。統(tǒng)一高效的數(shù)據(jù)處理體系,成功為海量科研信息架設(shè)起一條無(wú)縫流轉(zhuǎn)的“信息動(dòng)脈”。
當(dāng)前,越來(lái)越多科研人員采用深勢(shì)科技的產(chǎn)品實(shí)現(xiàn)海量文獻(xiàn)的高效檢索、管理與閱讀,并利用平臺(tái)專業(yè)工具提升科研效率。未來(lái),火山引擎還將繼續(xù)和深勢(shì)科技攜手,讓科學(xué)家從繁瑣的基礎(chǔ)工作中解脫出來(lái),以AI 技術(shù)釋放科研創(chuàng)新潛能。