操美女的视频在线观看_91在线精品国自产拍蜜月_舔av片在线_欧美老熟妇乱子伦牲交_看免费av毛片_晚上一个人看的免费电影_欧美高清成人免费视频www_哪个播放器可以免费观看大片

          sitemap

          uc伯克利和伯克利音樂(伯克利音樂學(xué)院和uc伯克利)

          更新時(shí)間:2024-03-12 11:04:46       發(fā)布時(shí)間:6小時(shí)前        作者:MVP學(xué)習(xí)網(wǎng)       熱度: 0       
          [摘要]

          編輯:好困【新智元導(dǎo)讀】萬萬沒想到,現(xiàn)在大語言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了!據(jù)說


          編輯:好困

          【新智元導(dǎo)讀】萬萬沒想到,現(xiàn)在大語言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了!據(jù)說,那些閉源模型們很快也會(huì)被拉出來溜溜。

          最近,來自LMSYS Org(UC伯克利主導(dǎo))的研究人員又搞了個(gè)大新聞——大語言模型版排位賽!

          顧名思義,「LLM排位賽」就是讓一群大語言模型隨機(jī)進(jìn)行battle,并根據(jù)它們的Elo得分進(jìn)行排名。

          uc伯克利和伯克利音樂(伯克利音樂學(xué)院和uc伯克利)-19317

          然后,我們就能一眼看出,某個(gè)聊天機(jī)器人到底是「嘴強(qiáng)王者」還是「最強(qiáng)王者」。

          劃重點(diǎn):團(tuán)隊(duì)還計(jì)劃把國內(nèi)和國外的這些「閉源」模型都搞進(jìn)來,是騾子是馬溜溜就知道了!(GPT-3.5現(xiàn)在就已經(jīng)在匿名競技場里了)

          uc伯克利和伯克利音樂(伯克利音樂學(xué)院和uc伯克利)-19362

          匿名聊天機(jī)器人競技場長下面這樣:

          很明顯,模型B回答正確,拿下這局;而模型A連題都沒讀懂……

          uc伯克利和伯克利音樂(伯克利音樂學(xué)院和uc伯克利)-19361

          項(xiàng)目地址:https://arena.lmsys.org/

          在當(dāng)前的排行榜中,130億參數(shù)的Vicuna以1169分穩(wěn)居第一,同樣130億參數(shù)的Koala位列第二,LAION的Open Assistant排在第三。

          清華提出的ChatGLM,雖然只有60億參數(shù),但依然沖進(jìn)了前五,只比130億參數(shù)的Alpaca落后了23分。

          相比之下,Meta原版的LLaMa只排到了第八(倒數(shù)第二),而Stability AI的StableLM則獲得了唯一的800+分,排名倒數(shù)第一。

          團(tuán)隊(duì)表示,之后不僅會(huì)定期更新排位賽榜單,而且還會(huì)優(yōu)化算法和機(jī)制,并根據(jù)不同的任務(wù)類型提供更加細(xì)化的排名。

          目前,所有的評(píng)估代碼以及數(shù)據(jù)分析均已公布。

          拉著LLM打排位

          在這次的評(píng)估中,團(tuán)隊(duì)選擇了目前比較出名的9個(gè)開源聊天機(jī)器人。

          每次1v1對(duì)戰(zhàn),系統(tǒng)都會(huì)隨機(jī)拉兩個(gè)上場PK。用戶則需要同時(shí)和這兩個(gè)機(jī)器人聊天,然后決定哪個(gè)聊天機(jī)器人聊的更好。

          可以看到,頁面下面有4個(gè)選項(xiàng),左邊(A)更好,右邊(B)更好,一樣好,或者都很差。

          當(dāng)用戶提交投票之后,系統(tǒng)就會(huì)顯示模型的名稱。這時(shí),用戶可以繼續(xù)聊天,或者選擇新的模型重新開啟一輪對(duì)戰(zhàn)。

          不過,團(tuán)隊(duì)在分析時(shí),只會(huì)采用模型是匿名時(shí)的投票結(jié)果。在經(jīng)過差不多一周的數(shù)據(jù)收集之后,團(tuán)隊(duì)共收獲了4.7k個(gè)有效的匿名投票。

          在開始之前,團(tuán)隊(duì)先根據(jù)基準(zhǔn)測試的結(jié)果,掌握了各個(gè)模型可能的排名。

          根據(jù)這個(gè)排名,團(tuán)隊(duì)會(huì)讓模型去優(yōu)先選擇更合適的對(duì)手。

          然后,再通過均勻采樣,來獲得對(duì)排名的更好總體覆蓋。

          在排位賽結(jié)束時(shí),團(tuán)隊(duì)又引入了一種新模型fastchat-t5-3b。

          以上這些操作最終導(dǎo)致了非均勻的模型頻率。

          每個(gè)模型組合的對(duì)戰(zhàn)次數(shù)

          從統(tǒng)計(jì)數(shù)據(jù)來看,大多數(shù)用戶所用的都是英語,中文排在第二位。

          排名前15的語言的對(duì)戰(zhàn)次數(shù)

          評(píng)估LLM,真的很難

          自從ChatGPT爆火之后,經(jīng)過指令跟隨微調(diào)的開源大語言模型如雨后春筍一般大量涌現(xiàn)??梢哉f,幾乎每周都有新的開源LLM在發(fā)布。

          但問題是,評(píng)估這些大語言模型非常難。

          具體來說,目前用來衡量一個(gè)模型好不好的東西基本都是基于一些學(xué)術(shù)的benchmark,比如在一個(gè)某個(gè)NLP任務(wù)上構(gòu)建一個(gè)測試數(shù)據(jù)集,然后看測試數(shù)據(jù)集上準(zhǔn)確率多少。

          然而,這些學(xué)術(shù)benchmark(如HELM)在大模型和聊天機(jī)器人上就不好用了。其原因在于:

          1. 由于評(píng)判聊天機(jī)器人聊得好不好這件事是非常主觀的,因此現(xiàn)有的方法很難對(duì)其進(jìn)行衡量。

          2. 這些大模型在訓(xùn)練的時(shí)候就幾乎把整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)都掃了一個(gè)遍,因此很難保證測試用的數(shù)據(jù)集沒有被看到過。甚至更進(jìn)一步,用測試集直接對(duì)模型進(jìn)行「特訓(xùn)」,如此一來表現(xiàn)必然更好。

          3. 理論上我們可以和聊天機(jī)器人聊任何事情,但很多話題或者任務(wù)在現(xiàn)存的benchmark里面根本就不存在。

          那如果不想采用這些benchmark的話,其實(shí)還有一條路可以走——花錢請(qǐng)人來給模型打分。

          實(shí)際上,OpenAI就是這么搞的。但是這個(gè)方法明顯很慢,而且更重要的是,太貴了……

          為了解決這個(gè)棘手的問題,來自UC伯克利、UCSD、CMU的團(tuán)隊(duì)發(fā)明了一種既好玩又實(shí)用的全新機(jī)制——聊天機(jī)器人競技場(Chatbot Arena)。

          相比而言,基于對(duì)戰(zhàn)的基準(zhǔn)系統(tǒng)具有以下優(yōu)勢:

          可擴(kuò)展性(Scalability)

          當(dāng)不能為所有潛在的模型對(duì)收集足夠的數(shù)據(jù)時(shí),系統(tǒng)應(yīng)能擴(kuò)展到盡可能多的模型。

          增量性(Incrementality)

          系統(tǒng)應(yīng)能夠使用相對(duì)較少的試驗(yàn)次數(shù)評(píng)估新模型。

          唯一順序(Unique order)

          系統(tǒng)應(yīng)為所有模型提供唯一順序。給定任意兩個(gè)模型,我們應(yīng)該能夠判斷哪個(gè)排名更高或它們是否并列。

          Elo評(píng)分系統(tǒng)

          Elo等級(jí)分制度(Elo rating system)是一種計(jì)算玩家相對(duì)技能水平的方法,廣泛應(yīng)用在競技游戲和各類運(yùn)動(dòng)當(dāng)中。其中,Elo評(píng)分越高,那么就說明這個(gè)玩家越厲害。

          比如英雄聯(lián)盟、Dota 2以及吃雞等等,系統(tǒng)給玩家進(jìn)行排名的就是這個(gè)機(jī)制。

          舉個(gè)例子,當(dāng)你在英雄聯(lián)盟里面打了很多場排位賽后,就會(huì)出現(xiàn)一個(gè)隱藏分。這個(gè)隱藏分不僅決定了你的段位,也決定了你打排位時(shí)碰到的對(duì)手基本也是類似水平的。

          而且,這個(gè)Elo評(píng)分的數(shù)值是絕對(duì)的。也就是說,當(dāng)未來加入新的聊天機(jī)器人時(shí),我們依然可以直接通過Elo的評(píng)分來判斷哪個(gè)聊天機(jī)器人更厲害。

          具體來說,如果玩家A的評(píng)分為Ra,玩家B的評(píng)分為Rb,玩家A獲勝概率的精確公式(使用以10為底的logistic曲線)為:

          然后,玩家的評(píng)分會(huì)在每場對(duì)戰(zhàn)后線性更新。

          假設(shè)玩家A(評(píng)分為Ra)預(yù)計(jì)獲得Ea分,但實(shí)際獲得Sa分。更新該玩家評(píng)分的公式為:

          1v1勝率

          此外,作者還展示了排位賽中每個(gè)模型的對(duì)戰(zhàn)勝率以及使用Elo評(píng)分估算的預(yù)測對(duì)戰(zhàn)勝率。

          結(jié)果顯示,Elo評(píng)分確實(shí)可以相對(duì)準(zhǔn)確地進(jìn)行預(yù)測

          所有非平局A對(duì)B戰(zhàn)斗中模型A勝利的比例

          在A對(duì)B戰(zhàn)斗中,使用Elo評(píng)分預(yù)測的模型A的勝率

          作者介紹

          「聊天機(jī)器人競技場」由前小羊駝作者機(jī)構(gòu)LMSYS Org發(fā)布。

          該機(jī)構(gòu)由UC伯克利博士Lianmin Zheng和UCSD準(zhǔn)教授Hao Zhang創(chuàng)立,目標(biāo)是通過共同開發(fā)開放的數(shù)據(jù)集、模型、系統(tǒng)和評(píng)估工具,使每個(gè)人都能獲得大型模型。

          Lianmin Zheng

          Lianmin Zheng是加州大學(xué)伯克利分校EECS系的博士生,他的研究興趣包括機(jī)器學(xué)習(xí)系統(tǒng)、編譯器和分布式系統(tǒng)。

          Hao Zhang

          Hao Zhang目前是加州大學(xué)伯克利分校的博士后研究員。他將于2023年秋季開始在加州大學(xué)圣地亞哥分校Hal?c?o?lu數(shù)據(jù)科學(xué)研究所和計(jì)算機(jī)系擔(dān)任助理教授。

          參考資料:

          https://lmsys.org/blog/2023-05-03-arena/

          免費(fèi)留學(xué)咨詢1V1指導(dǎo)(點(diǎn)擊咨詢

          微信溝通 一鍵撥打 聯(lián)系客服
          商都县| 桂林市| 巩留县| 凌源市| 永嘉县| 娄烦县| 罗山县| 静安区| 吉首市| 滨海县| 黄梅县| 安吉县| 南乐县| 恩施市| 延吉市| 田东县| 康定县| 禄丰县| 芒康县| 轮台县| 柞水县| 云和县| 左云县| 交城县| 呼图壁县| 遂平县| 曲麻莱县| 台北县| 敦化市| 抚宁县| 吉木萨尔县| 英德市| 丹巴县| 湟源县| 墨江| 齐齐哈尔市| 晋中市| 平南县| 林甸县| 金坛市| 子长县|