uc伯克利和伯克利音樂(lè)(伯克利音樂(lè)學(xué)院和uc伯克利)

更新時(shí)間：2024-03-12 11:04:46 發(fā)布時(shí)間：6小時(shí)前 作者：MVP學(xué)習(xí)網(wǎng) 熱度： 0

[摘要]

編輯：好困【新智元導(dǎo)讀】萬(wàn)萬(wàn)沒(méi)想到，現(xiàn)在大語(yǔ)言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了！據(jù)說(shuō)

編輯：好困

【新智元導(dǎo)讀】萬(wàn)萬(wàn)沒(méi)想到，現(xiàn)在大語(yǔ)言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了！據(jù)說(shuō)，那些閉源模型們很快也會(huì)被拉出來(lái)溜溜。

最近，來(lái)自LMSYS Org（UC伯克利主導(dǎo)）的研究人員又搞了個(gè)大新聞——大語(yǔ)言模型版排位賽！

顧名思義，「LLM排位賽」就是讓一群大語(yǔ)言模型隨機(jī)進(jìn)行battle，并根據(jù)它們的Elo得分進(jìn)行排名。

uc伯克利和伯克利音樂(lè)(伯克利音樂(lè)學(xué)院和uc伯克利)-19317

然后，我們就能一眼看出，某個(gè)聊天機(jī)器人到底是「嘴強(qiáng)王者」還是「最強(qiáng)王者」。

劃重點(diǎn)：團(tuán)隊(duì)還計(jì)劃把國(guó)內(nèi)和國(guó)外的這些「閉源」模型都搞進(jìn)來(lái)，是騾子是馬溜溜就知道了?。℅PT-3.5現(xiàn)在就已經(jīng)在匿名競(jìng)技場(chǎng)里了）

uc伯克利和伯克利音樂(lè)(伯克利音樂(lè)學(xué)院和uc伯克利)-19362

匿名聊天機(jī)器人競(jìng)技場(chǎng)長(zhǎng)下面這樣：

很明顯，模型B回答正確，拿下這局；而模型A連題都沒(méi)讀懂……

uc伯克利和伯克利音樂(lè)(伯克利音樂(lè)學(xué)院和uc伯克利)-19361

項(xiàng)目地址：https://arena.lmsys.org/

在當(dāng)前的排行榜中，130億參數(shù)的Vicuna以1169分穩(wěn)居第一，同樣130億參數(shù)的Koala位列第二，LAION的Open Assistant排在第三。

清華提出的ChatGLM，雖然只有60億參數(shù)，但依然沖進(jìn)了前五，只比130億參數(shù)的Alpaca落后了23分。

相比之下，Meta原版的LLaMa只排到了第八（倒數(shù)第二），而Stability AI的StableLM則獲得了唯一的800+分，排名倒數(shù)第一。

團(tuán)隊(duì)表示，之后不僅會(huì)定期更新排位賽榜單，而且還會(huì)優(yōu)化算法和機(jī)制，并根據(jù)不同的任務(wù)類(lèi)型提供更加細(xì)化的排名。

目前，所有的評(píng)估代碼以及數(shù)據(jù)分析均已公布。

拉著LLM打排位

在這次的評(píng)估中，團(tuán)隊(duì)選擇了目前比較出名的9個(gè)開(kāi)源聊天機(jī)器人。

每次1v1對(duì)戰(zhàn)，系統(tǒng)都會(huì)隨機(jī)拉兩個(gè)上場(chǎng)PK。用戶則需要同時(shí)和這兩個(gè)機(jī)器人聊天，然后決定哪個(gè)聊天機(jī)器人聊的更好。

可以看到，頁(yè)面下面有4個(gè)選項(xiàng)，左邊（A）更好，右邊（B）更好，一樣好，或者都很差。

當(dāng)用戶提交投票之后，系統(tǒng)就會(huì)顯示模型的名稱(chēng)。這時(shí)，用戶可以繼續(xù)聊天，或者選擇新的模型重新開(kāi)啟一輪對(duì)戰(zhàn)。

不過(guò)，團(tuán)隊(duì)在分析時(shí)，只會(huì)采用模型是匿名時(shí)的投票結(jié)果。在經(jīng)過(guò)差不多一周的數(shù)據(jù)收集之后，團(tuán)隊(duì)共收獲了4.7k個(gè)有效的匿名投票。

在開(kāi)始之前，團(tuán)隊(duì)先根據(jù)基準(zhǔn)測(cè)試的結(jié)果，掌握了各個(gè)模型可能的排名。

根據(jù)這個(gè)排名，團(tuán)隊(duì)會(huì)讓模型去優(yōu)先選擇更合適的對(duì)手。

然后，再通過(guò)均勻采樣，來(lái)獲得對(duì)排名的更好總體覆蓋。

在排位賽結(jié)束時(shí)，團(tuán)隊(duì)又引入了一種新模型fastchat-t5-3b。

以上這些操作最終導(dǎo)致了非均勻的模型頻率。

每個(gè)模型組合的對(duì)戰(zhàn)次數(shù)

從統(tǒng)計(jì)數(shù)據(jù)來(lái)看，大多數(shù)用戶所用的都是英語(yǔ)，中文排在第二位。

排名前15的語(yǔ)言的對(duì)戰(zhàn)次數(shù)

評(píng)估LLM，真的很難

自從ChatGPT爆火之后，經(jīng)過(guò)指令跟隨微調(diào)的開(kāi)源大語(yǔ)言模型如雨后春筍一般大量涌現(xiàn)?？梢哉f(shuō)，幾乎每周都有新的開(kāi)源LLM在發(fā)布。

但問(wèn)題是，評(píng)估這些大語(yǔ)言模型非常難。

具體來(lái)說(shuō)，目前用來(lái)衡量一個(gè)模型好不好的東西基本都是基于一些學(xué)術(shù)的benchmark，比如在一個(gè)某個(gè)NLP任務(wù)上構(gòu)建一個(gè)測(cè)試數(shù)據(jù)集，然后看測(cè)試數(shù)據(jù)集上準(zhǔn)確率多少。

然而，這些學(xué)術(shù)benchmark（如HELM）在大模型和聊天機(jī)器人上就不好用了。其原因在于：

1. 由于評(píng)判聊天機(jī)器人聊得好不好這件事是非常主觀的，因此現(xiàn)有的方法很難對(duì)其進(jìn)行衡量。

2. 這些大模型在訓(xùn)練的時(shí)候就幾乎把整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)都掃了一個(gè)遍，因此很難保證測(cè)試用的數(shù)據(jù)集沒(méi)有被看到過(guò)。甚至更進(jìn)一步，用測(cè)試集直接對(duì)模型進(jìn)行「特訓(xùn)」，如此一來(lái)表現(xiàn)必然更好。

3. 理論上我們可以和聊天機(jī)器人聊任何事情，但很多話題或者任務(wù)在現(xiàn)存的benchmark里面根本就不存在。

那如果不想采用這些benchmark的話，其實(shí)還有一條路可以走——花錢(qián)請(qǐng)人來(lái)給模型打分。

實(shí)際上，OpenAI就是這么搞的。但是這個(gè)方法明顯很慢，而且更重要的是，太貴了……

為了解決這個(gè)棘手的問(wèn)題，來(lái)自UC伯克利、UCSD、CMU的團(tuán)隊(duì)發(fā)明了一種既好玩又實(shí)用的全新機(jī)制——聊天機(jī)器人競(jìng)技場(chǎng)（Chatbot Arena）。

相比而言，基于對(duì)戰(zhàn)的基準(zhǔn)系統(tǒng)具有以下優(yōu)勢(shì)：

可擴(kuò)展性（Scalability）

當(dāng)不能為所有潛在的模型對(duì)收集足夠的數(shù)據(jù)時(shí)，系統(tǒng)應(yīng)能擴(kuò)展到盡可能多的模型。

增量性（Incrementality）

系統(tǒng)應(yīng)能夠使用相對(duì)較少的試驗(yàn)次數(shù)評(píng)估新模型。

唯一順序（Unique order）

系統(tǒng)應(yīng)為所有模型提供唯一順序。給定任意兩個(gè)模型，我們應(yīng)該能夠判斷哪個(gè)排名更高或它們是否并列。

Elo評(píng)分系統(tǒng)

Elo等級(jí)分制度（Elo rating system）是一種計(jì)算玩家相對(duì)技能水平的方法，廣泛應(yīng)用在競(jìng)技游戲和各類(lèi)運(yùn)動(dòng)當(dāng)中。其中，Elo評(píng)分越高，那么就說(shuō)明這個(gè)玩家越厲害。

比如英雄聯(lián)盟、Dota 2以及吃雞等等，系統(tǒng)給玩家進(jìn)行排名的就是這個(gè)機(jī)制。

舉個(gè)例子，當(dāng)你在英雄聯(lián)盟里面打了很多場(chǎng)排位賽后，就會(huì)出現(xiàn)一個(gè)隱藏分。這個(gè)隱藏分不僅決定了你的段位，也決定了你打排位時(shí)碰到的對(duì)手基本也是類(lèi)似水平的。

而且，這個(gè)Elo評(píng)分的數(shù)值是絕對(duì)的。也就是說(shuō)，當(dāng)未來(lái)加入新的聊天機(jī)器人時(shí)，我們依然可以直接通過(guò)Elo的評(píng)分來(lái)判斷哪個(gè)聊天機(jī)器人更厲害。

具體來(lái)說(shuō)，如果玩家A的評(píng)分為Ra，玩家B的評(píng)分為Rb，玩家A獲勝概率的精確公式（使用以10為底的logistic曲線）為：

然后，玩家的評(píng)分會(huì)在每場(chǎng)對(duì)戰(zhàn)后線性更新。

假設(shè)玩家A（評(píng)分為Ra）預(yù)計(jì)獲得Ea分，但實(shí)際獲得Sa分。更新該玩家評(píng)分的公式為：

1v1勝率

此外，作者還展示了排位賽中每個(gè)模型的對(duì)戰(zhàn)勝率以及使用Elo評(píng)分估算的預(yù)測(cè)對(duì)戰(zhàn)勝率。

結(jié)果顯示，Elo評(píng)分確實(shí)可以相對(duì)準(zhǔn)確地進(jìn)行預(yù)測(cè)

所有非平局A對(duì)B戰(zhàn)斗中模型A勝利的比例

在A對(duì)B戰(zhàn)斗中，使用Elo評(píng)分預(yù)測(cè)的模型A的勝率

作者介紹

「聊天機(jī)器人競(jìng)技場(chǎng)」由前小羊駝作者機(jī)構(gòu)LMSYS Org發(fā)布。

該機(jī)構(gòu)由UC伯克利博士Lianmin Zheng和UCSD準(zhǔn)教授Hao Zhang創(chuàng)立，目標(biāo)是通過(guò)共同開(kāi)發(fā)開(kāi)放的數(shù)據(jù)集、模型、系統(tǒng)和評(píng)估工具，使每個(gè)人都能獲得大型模型。

Lianmin Zheng

Lianmin Zheng是加州大學(xué)伯克利分校EECS系的博士生，他的研究興趣包括機(jī)器學(xué)習(xí)系統(tǒng)、編譯器和分布式系統(tǒng)。

Hao Zhang

Hao Zhang目前是加州大學(xué)伯克利分校的博士后研究員。他將于2023年秋季開(kāi)始在加州大學(xué)圣地亞哥分校Hal?c?o?lu數(shù)據(jù)科學(xué)研究所和計(jì)算機(jī)系擔(dān)任助理教授。

參考資料：

https://lmsys.org/blog/2023-05-03-arena/

操美女的视频在线观看_91在线精品国自产拍蜜月_舔av片在线_欧美老熟妇乱子伦牲交_看免费av毛片_晚上一个人看的免费电影_欧美高清成人免费视频www_哪个播放器可以免费观看大片

音樂(lè)留學(xué)

uc伯克利和伯克利音樂(lè)(伯克利音樂(lè)學(xué)院和uc伯克利)

免費(fèi)留學(xué)咨詢(xún)1V1指導(dǎo)（點(diǎn)擊咨詢(xún)）

最新文章

音樂(lè)教育專(zhuān)業(yè)世界大學(xué)排名(音樂(lè)教育專(zhuān)業(yè)世界大學(xué)排名榜)

音樂(lè)制作專(zhuān)業(yè)世界大學(xué)排名(音樂(lè)制作專(zhuān)業(yè)世界大學(xué)排名榜)

音樂(lè)治療留學(xué)大學(xué)排名(音樂(lè)治療專(zhuān)業(yè)留學(xué))

英國(guó)北方皇家音樂(lè)學(xué)院怎么樣(英國(guó)北方皇家音樂(lè)學(xué)院怎么樣知乎)

英國(guó)大學(xué)表演專(zhuān)業(yè)排名(英國(guó)大學(xué)表演專(zhuān)業(yè)排名榜)

英國(guó)大學(xué)舞蹈專(zhuān)業(yè)排名(英國(guó)大學(xué)舞蹈專(zhuān)業(yè)排名榜)

英國(guó)大學(xué)戲劇表演專(zhuān)業(yè)排名

英國(guó)大學(xué)音樂(lè)教育專(zhuān)業(yè)排名(英國(guó)大學(xué)音樂(lè)教育專(zhuān)業(yè)排名榜)

英國(guó)皇家芭蕾舞學(xué)院招生年齡(英國(guó)皇家芭蕾舞學(xué)院招生年齡多大)

英國(guó)皇家音樂(lè)學(xué)院qs排名(英國(guó)皇家音樂(lè)學(xué)院qs排名留學(xué)多少錢(qián))

熱門(mén)文章

邁阿密大學(xué)音樂(lè)學(xué)院排名_邁阿密大學(xué)音樂(lè)學(xué)院排名第幾？

瑞典音樂(lè)留學(xué)

北方皇家音樂(lè)學(xué)院碩士招生簡(jiǎn)章（2024年北方皇家音樂(lè)學(xué)院研究生招生簡(jiǎn)章）

麥吉爾大學(xué)音樂(lè)學(xué)院留學(xué)費(fèi)用_麥吉爾大學(xué)音樂(lè)學(xué)院留學(xué)學(xué)費(fèi)多少？

漢堡國(guó)立音樂(lè)與戲劇學(xué)院排名

利茲大學(xué)音樂(lè)學(xué)院和利茲音樂(lè)學(xué)院_利茲大學(xué)音樂(lè)學(xué)院和利茲音樂(lè)學(xué)院哪一個(gè)好？

日本洗足學(xué)園音樂(lè)大學(xué)相當(dāng)于中國(guó)(日本洗足學(xué)園音樂(lè)大學(xué)相當(dāng)于中國(guó)的什么大學(xué))

學(xué)音樂(lè)劇去哪個(gè)國(guó)家

加拿大最好的音樂(lè)大學(xué)(加拿大最好的音樂(lè)大學(xué)一年學(xué)費(fèi)多少)

意大利聲樂(lè)留學(xué)大約需要多少錢(qián)(意大利聲樂(lè)留學(xué)大約需要多少錢(qián)費(fèi)用)