97人人爽|97碰在线视频|三年片在线|中文字幕一区二区三区三区四区

?
當(dāng)前位置:首頁(yè) / 新聞資訊 / 行業(yè)資訊

中國(guó)信通院?jiǎn)?dòng)AI大模型幻覺評(píng)測(cè),總體涉及五種測(cè)試維度

發(fā)布日期:2025-03-21     123 次

3 月 19 日消息,IT之家從中國(guó)信通院官方微信公眾號(hào)獲悉,為摸清大模型的幻覺現(xiàn)狀,推動(dòng)大模型應(yīng)用走深走實(shí),中國(guó)信息通信研究院人工智能所基于前期的 AI Safety Benchmark 測(cè)評(píng)工作,發(fā)起大模型幻覺測(cè)試。


大模型幻覺(AI Hallucination)是指模型在生成內(nèi)容或回答問(wèn)題時(shí),產(chǎn)生了看似合理,實(shí)則與用戶輸入不一致(忠實(shí)性幻覺)或者不符合事實(shí)(事實(shí)性幻覺)的內(nèi)容。隨著大模型在醫(yī)療、金融等關(guān)鍵領(lǐng)域廣泛應(yīng)用,大模型幻覺帶來(lái)的潛在應(yīng)用風(fēng)險(xiǎn)日益加劇,正得到業(yè)界的廣泛關(guān)注。

本輪幻覺測(cè)試工作將以大語(yǔ)言模型為測(cè)試對(duì)象,涵蓋了事實(shí)性幻覺和忠實(shí)性幻覺兩種幻覺類型,具體測(cè)評(píng)體系如下:

00.jpg


測(cè)試數(shù)據(jù)包含 7000 余條中文測(cè)試樣本,測(cè)試形式包括對(duì)應(yīng)于忠實(shí)性幻覺檢測(cè)的信息抽取與知識(shí)推理兩類題型,以及對(duì)應(yīng)事實(shí)性幻覺檢測(cè)的事實(shí)判別題型。總體涉及人文科學(xué)、社會(huì)科學(xué)、自然科學(xué)、應(yīng)用科學(xué)和形式科學(xué)五種測(cè)試維度。

00.jpg


中國(guó)信通院邀請(qǐng)各相關(guān)企業(yè)參與模型測(cè)評(píng),共同推動(dòng)大模型安全應(yīng)用。


為您精選

最新文章

尋找更多銷售、技術(shù)和解決方案的信息?

?
關(guān)于綠測(cè)

廣州綠測(cè)電子科技有限公司(簡(jiǎn)稱:綠測(cè)科技)成立于2015年11月,是一家專注于耕耘測(cè)試與測(cè)量行業(yè)的技術(shù)開發(fā)公司。綠測(cè)科技以“工程師的測(cè)試管家”的理念向廣大客戶提供專業(yè)的管家服務(wù)。綠測(cè)科技的研發(fā)部及工廠設(shè)立于廣州番禺區(qū),隨著公司業(yè)務(wù)的發(fā)展,先后在廣西南寧、深圳、廣州南沙、香港等地設(shè)立了機(jī)構(gòu)。綠測(cè)科技經(jīng)過(guò)深耕測(cè)試與測(cè)量領(lǐng)域多年,組建了一支經(jīng)驗(yàn)豐富的團(tuán)隊(duì),可為廣大客戶提供品質(zhì)過(guò)硬的產(chǎn)品及測(cè)試技術(shù)服務(wù)等支持。

綠測(cè)工場(chǎng)服務(wù)號(hào)
綠測(cè)工場(chǎng)服務(wù)號(hào)
綠測(cè)科技訂閱號(hào)
綠測(cè)科技訂閱號(hào)
020-2204 2442
Copyright @ 2015-2024 廣州綠測(cè)電子科技有限公司 版權(quán)所有 E-mail:Sales@greentest.com.cn 粵ICP備18033302號(hào)