新華日報財經(jīng)訊 近日,南京農(nóng)業(yè)大學(xué)正式發(fā)布司農(nóng)大語言模型(Sinong),該模型是國內(nèi)首個面向通用農(nóng)業(yè)領(lǐng)域的開源垂直大語言模型,同時也是南京農(nóng)業(yè)大學(xué)主導(dǎo)研發(fā)的首個農(nóng)業(yè)領(lǐng)域大語言模型。
據(jù)介紹,該大語言模型重點立足服務(wù)農(nóng)業(yè)領(lǐng)域,“司農(nóng)”的命名取自中國古代財政與農(nóng)業(yè)管理官職體系。研究團隊依托南京農(nóng)業(yè)大學(xué)深厚的農(nóng)業(yè)學(xué)科底蘊與大規(guī)模、高質(zhì)量的農(nóng)業(yè)領(lǐng)域數(shù)據(jù)基礎(chǔ),收集了包括動物科學(xué)、農(nóng)業(yè)經(jīng)濟管理、農(nóng)業(yè)資源與環(huán)境、園藝學(xué)、智慧農(nóng)業(yè)、動物醫(yī)學(xué)、植物保護、作物育種等細分學(xué)科數(shù)據(jù),總量超過40億token的農(nóng)業(yè)領(lǐng)域?qū)I(yè)數(shù)據(jù),涵蓋了近9000冊書籍、24萬余篇學(xué)術(shù)論文和近2萬份政策、標(biāo)準(zhǔn)以及海量網(wǎng)絡(luò)知識,構(gòu)建了體系相對完整、質(zhì)量過硬的農(nóng)業(yè)基礎(chǔ)數(shù)據(jù)集。
針對大語言模型在專業(yè)領(lǐng)域應(yīng)用中常見的“幻覺問題”和知識滯后性,研究團隊進行了全方位的技術(shù)攻堅。在模型訓(xùn)練階段,除傳統(tǒng)指令微調(diào)外,引入了思維鏈和上下文參考等多維訓(xùn)練數(shù)據(jù),顯著提升了模型對于農(nóng)業(yè)專業(yè)知識的理解與生成能力。
此外,針對領(lǐng)域文獻知識利用效率問題,司農(nóng)大語言模型推出多智能體檢索增強框架。該框架通過優(yōu)化知識庫構(gòu)建、智能查詢改寫、混合檢索等策略,使模型能夠精準(zhǔn)調(diào)用專業(yè)知識,有效保障了生成內(nèi)容的準(zhǔn)確性與時效性,為模型在科研、教育、生產(chǎn)等場景的可靠應(yīng)用提供了保障。
目前,司農(nóng)大語言模型已在魔塔社區(qū)和GitHub社區(qū)全面開源,發(fā)布了8B和32B兩種參數(shù)規(guī)模的版本。研究團隊相關(guān)負責(zé)人表示,這一開源開放策略,旨在降低農(nóng)業(yè)AI應(yīng)用門檻,助力廣大科研機構(gòu)、企業(yè)和開發(fā)者基于司農(nóng)大語言模型進行二次開發(fā)與創(chuàng)新應(yīng)用,共同培育智慧農(nóng)業(yè)的應(yīng)用生態(tài)。未來,南京農(nóng)業(yè)大學(xué)將持續(xù)迭代模型性能,深化應(yīng)用場景探索,并與各界攜手,共同推動我國農(nóng)業(yè)現(xiàn)代化與數(shù)智化轉(zhuǎn)型進程。
新華日報·財經(jīng)記者 李達 通訊員 南農(nóng)宣

新華報業(yè)網(wǎng)
Android版
iPhone版