バズりと商策に振り回されない|ChatGPT、Gemini など LLM の評価手法と情報の追い方
数理の弾丸 数理の弾丸
2.1K subscribers
697 views
20

 Published On Jun 1, 2024

この動画では、開発競争が激化し、情報が日々増えているLLMの「評価」に焦点を当てて解説します。自身の判断基準を持ってモデルを比較し、モデルの評価競争を解像度高く追っていくための知識を得ることができます。新たなモデルが発表されたときの情報の見方や、LLM導入時のモデル比較検討に役立つと幸いです!

01:40 背景:LLM戦国時代
04:15 今回の内容
04:40 良いモデル、とは
05:35 先にまとめ
06:09 LLMの評価手法
15:55 評価手法の現状にある背景
18:16 評価結果の情報はどこにあるのか
19:45 Chatbot Arena - 自由記述の評価手法
22:10 各評価手法の課題
24:25 Q&A

MMLU リーダーボード: https://paperswithcode.com/sota/multi...
Chatbot Arena リーダーボード: https://chat.lmsys.org/?leaderboard
----------
「数理の弾丸」は、人工知能や言語にまつわる専門知をわかりやすく、誤魔化さずに伝えることを目指すチャンネルです。

■スピーカー:吉田、鈴木、スミス、辻

#chatgpt #gemini #claude3 #大規模言語モデル #ai

show more

Share/Embed