人妻无码中文字幕免费视频蜜桃,国内精品久久久久香蕉。,黑人大鸡巴强奸韩国女人,国产午夜三级视频在线观看

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了

2024-04-23 09:09:02 193觀看

如果試題太簡(jiǎn)單,學(xué)霸和學(xué)渣都能考90分,拉不開差距……Obo驛資訊

隨著Claude 3、Llama 3甚至之后GPT-5等更強(qiáng)模型發(fā)布,業(yè)界急需一款更難、更有區(qū)分度的基準(zhǔn)測(cè)試。Obo驛資訊

大模型競(jìng)技場(chǎng)背后組織LMSYS推出下一代基準(zhǔn)測(cè)試Arena-Hard,引起廣泛關(guān)注。Obo驛資訊

Llama 3的兩個(gè)指令微調(diào)版本實(shí)力到底如何,也有了新參考。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

與之前大家分?jǐn)?shù)都相近的MT Bench相比,Arena-Hard區(qū)分度從22.6%提升到87.4%,孰強(qiáng)孰弱一目了然。Obo驛資訊

Arena-Hard利用競(jìng)技場(chǎng)實(shí)時(shí)人類數(shù)據(jù)構(gòu)建,與人類偏好一致率也高達(dá)89.1%。Obo驛資訊

除了上面兩個(gè)指標(biāo)都達(dá)到SOTA之外,還有一個(gè)額外的好處:Obo驛資訊

實(shí)時(shí)更新的測(cè)試數(shù)據(jù)包含人類新想出的、AI在訓(xùn)練階段從未見過的提示詞,減輕潛在的數(shù)據(jù)泄露。Obo驛資訊

并且新模型發(fā)布后,無需再等待一周左右時(shí)間讓人類用戶參與投票,只需花費(fèi)25美元快速運(yùn)行測(cè)試管線,即可得到結(jié)果。Obo驛資訊

有網(wǎng)友評(píng)價(jià),使用真實(shí)用戶提示詞而不是高中考試來測(cè)試,真的很重要。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

新基準(zhǔn)測(cè)試如何運(yùn)作?Obo驛資訊

簡(jiǎn)單來說,通過大模型競(jìng)技場(chǎng)20萬個(gè)用戶查詢中,挑選500個(gè)高質(zhì)量提示詞作為測(cè)試集。Obo驛資訊

首先,挑選過程中確保多樣性,也就是測(cè)試集應(yīng)涵蓋廣泛的現(xiàn)實(shí)世界話題。Obo驛資訊

為了確保這一點(diǎn),團(tuán)隊(duì)采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉(zhuǎn)換每個(gè)提示,使用 UMAP 降低維度,并使用基于層次結(jié)構(gòu)的模型聚類算法 (HDBSCAN) 來識(shí)別聚類,后使用GPT-4-turbo進(jìn)行匯總。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

同時(shí)確保入選的提示詞具有高質(zhì)量,有七個(gè)關(guān)鍵指標(biāo)來衡量:Obo驛資訊

-具體性:提示詞是否要求特定的輸出?Obo驛資訊

-領(lǐng)域知識(shí):提示詞是否涵蓋一個(gè)或多個(gè)特定領(lǐng)域?Obo驛資訊

-復(fù)雜性:提示詞是否有多層推理、組成部分或變量?Obo驛資訊

-解決問題:提示詞是否直接讓AI展示主動(dòng)解決問題的能力?Obo驛資訊

-創(chuàng)造力:提示詞是否涉及解決問題的一定程度的創(chuàng)造力?Obo驛資訊

-技術(shù)準(zhǔn)確性:提示詞是否要求響應(yīng)具有技術(shù)準(zhǔn)確性?Obo驛資訊

-實(shí)際應(yīng)用:提示詞是否與實(shí)際應(yīng)用相關(guān)?Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

使用GPT-3.5-Turbo和GPT-4-Turbo對(duì)每個(gè)提示進(jìn)行從 0 到 7 的注釋,判斷滿足多少個(gè)條件。然后根據(jù)提示的平均得分給每個(gè)聚類評(píng)分。Obo驛資訊

高質(zhì)量的問題通常與有挑戰(zhàn)性的話題或任務(wù)相關(guān),比如游戲開發(fā)或數(shù)學(xué)證明。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

新基準(zhǔn)測(cè)試準(zhǔn)嗎?Obo驛資訊

Arena-Hard目前還有一個(gè)弱點(diǎn):使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應(yīng)提示。Obo驛資訊

可以看出,新兩個(gè)版本的GPT-4分?jǐn)?shù)高過Claude 3 Opus一大截,但在人類投票分?jǐn)?shù)中差距并沒有那么明顯。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

其實(shí)關(guān)于這一點(diǎn),近已經(jīng)有研究論證,前沿模型都會(huì)偏好自己的輸出。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

研究團(tuán)隊(duì)還發(fā)現(xiàn),AI天生就可以判斷出一段文字是不是自己寫的,經(jīng)過微調(diào)后自我識(shí)別的能力還能增強(qiáng),并且自我識(shí)別能力與自我偏好線性相關(guān)。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

那么使用Claude 3來打分會(huì)使結(jié)果產(chǎn)生什么變化?LMSYS也做了相關(guān)實(shí)驗(yàn)。Obo驛資訊

首先,Claude系列的分?jǐn)?shù)確實(shí)會(huì)提高。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對(duì)GPT-3.5的評(píng)分都有明顯提高。Obo驛資訊

總體而言,使用Claude 3打分的區(qū)分度和與人類結(jié)果的一致性都不如GPT-4。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

所以也有很多網(wǎng)友建議,使用多個(gè)大模型來綜合打分。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

除此之外,團(tuán)隊(duì)還做了更多消融實(shí)驗(yàn)來驗(yàn)證新基準(zhǔn)測(cè)試的有效性。Obo驛資訊

比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分?jǐn)?shù)確實(shí)會(huì)提高。Obo驛資訊

但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分?jǐn)?shù)提升就不明顯。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

此外在實(shí)驗(yàn)過程中還有很多有意思的發(fā)現(xiàn)。Obo驛資訊

比如GPT-4來打分非常嚴(yán)格,如果回答中有錯(cuò)誤會(huì)狠狠扣分;而Claude 3即使識(shí)別出小錯(cuò)誤也會(huì)寬大處理。Obo驛資訊

對(duì)于代碼問題,Claude 3傾向于提供簡(jiǎn)單結(jié)構(gòu)、不依賴外部代碼庫,能幫助人類學(xué)習(xí)編程的答案;而GPT-4-Turbo更傾向?qū)嵱玫拇鸢?,不管其教育價(jià)值如何。Obo驛資訊

另外即使設(shè)置溫度為0,GPT-4-Turbo也可能產(chǎn)生略有不同的判斷。Obo驛資訊

從層次結(jié)構(gòu)可視化的前64個(gè)聚類中也可以看出,大模型競(jìng)技場(chǎng)用戶的提問質(zhì)量和多樣性確實(shí)是高。Obo驛資訊

新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了Obo驛資訊

這里面也許就有你的貢獻(xiàn)。Obo驛資訊

Arena-Hard GitHub:Obo驛資訊

https://github.com/lm-sys/arena-hardObo驛資訊

Arena-Hard HuggingFace:Obo驛資訊

https://huggingface.co/spaces/lmsys/arena-hard-browserObo驛資訊

大模型競(jìng)技場(chǎng):Obo驛資訊

https://arena.lmsys.orgObo驛資訊

參考鏈接:Obo驛資訊

[1]https://x.com/lmsysorg/status/1782179997622649330Obo驛資訊

[2]https://lmsys.org/blog/2024-04-19-arena-hard/Obo驛資訊

本文鏈接:http://www.88neiyi.com/news-128749.html新測(cè)試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了

標(biāo)簽:
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com。天上從來不會(huì)掉餡餅,請(qǐng)大家時(shí)刻謹(jǐn)防詐騙
被调教成性奴公共厕所文| 亚洲熟妇av无人区一区| 办公室浪荡女秘在线观看| fc2个人撮影在线播放| 硬鸡巴动态操女人逼视频| 无码精品日?专区第一页| 永久免费av在线电影网| 成人久久18秘免费网站| 亚洲丰满多毛的大阴户3| 九九热久久这里全是精品| 九九九成人电影| 成年肉动漫在线观看无码| 国产大鸡巴操逼免费视频| 国产懂色av一区二区三区| 欧美洲老美女展示蚤逼逼| 奇米色奇米影视在线观看| 国内偷拍国内精品网999| 色婷婷综合激情综在线播放 | 亚洲日本一区二区三区在线| 我的公把我弄高潮了视频| av换脸明星一区二区三区| 激情丝袜欧美专区在线看| 想要大鸡巴干我的小骚逼| 男生日女生很疼那种网站| 日韩bd高清电影一区二区| 天天日天天干天天操夜夜爽| 国产一区二区熟女精品免费| 肏啊啊啊肏死老屄了电影| 亚洲妇人成熟性成熟网站| 日韩欧美一级黄片免费观看| 男人操女人免费视频软件| 天天日天天干天天天天操| 天天爽夜夜爽夜夜爽精品| 美女逼被操网站| 色亚洲自拍熟女另类图片| 国产精品久久久久久久人貌| 国产suv一区二区三区| 啊啊啊好疼黄片好大啊啊| 女人爽到喷水的视频看片| 亚洲国产精品热久久最新| 大鸡巴干美女视频免费看|