Китайские LLM доминируют в обновленной таблице лидеров Hugging Face
Hugging Face выпустила свою вторую таблицу лидеров LLM, в которой представлены лучшие языковые модели, которые она протестировала. Новая таблица лидеров призвана стать более сложным единым стандартом для тестирования производительности модели открытого большого языка (LLM) в различных задачах. Модели Qwen от Alibaba доминируют в первом рейтинге таблицы лидеров, заняв три позиции в первой десятке.
Вторая таблица лидеров Hugging Face тестирует языковые модели по четырем задачам: проверка знаний, рассуждения в чрезвычайно длинных контекстах, сложные математические способности и выполнение инструкций. Для проверки этих качеств используются шесть тестов, включая решение загадок убийства объемом в 1000 слов, объяснение вопросов уровня доктора философии с точки зрения непрофессионала и самое сложное из всех: математические уравнения средней школы. Полную информацию об использованных тестах можно найти в блоге Hugging Face.
Лидером новой таблицы лидеров является Qwen, LLM от Alibaba, который занимает 1-е, 3-е и 10-е места со своим несколькими вариантами. Также появляются Llama3-70B, LLM от Meta и несколько небольших проектов с открытым исходным кодом, которым удалось превзойти пакет. Примечательно отсутствие каких-либо признаков ChatGPT; В таблице лидеров Hugging Face не тестируются модели с закрытым исходным кодом, чтобы гарантировать воспроизводимость результатов.
Тесты на попадание в таблицу лидеров проводятся исключительно на собственных компьютерах Hugging Face, которые, по словам генерального директора Клема Деланга в Твиттере, оснащены 300 графическими процессорами Nvidia H100. Благодаря открытому исходному коду и коллективному характеру Hugging Face каждый может свободно отправлять новые модели для тестирования и попадания в таблицу лидеров, а новая система голосования отдает приоритет популярным новым записям для тестирования. Таблицу лидеров можно отфильтровать, чтобы отображать только выделенный массив значимых моделей, чтобы избежать запутанного перенасыщения небольшими LLM.
Являясь основой пространства LLM, Hugging Face стал надежным источником обучения LLM и сотрудничества с сообществом. После того, как в прошлом году была выпущена первая таблица лидеров как средство сравнения и воспроизведения результатов тестирования нескольких авторитетных LLM, популярность доски быстро возросла. Получение высоких рейтингов на доске стало целью многих разработчиков, малых и крупных, и по мере того, как модели в целом становились сильнее, «умнее» и оптимизировались для конкретных тестов первой таблицы лидеров, ее результаты становились все менее и менее значимыми, следовательно создание второго варианта.
Некоторые LLM, включая новые варианты Ламы Меты, сильно отстают в новой таблице лидеров по сравнению с их высокими оценками в первой. Это произошло из-за тенденции чрезмерного обучения LLM только по критериям первой таблицы лидеров, что привело к снижению реальных результатов. Этот регресс производительности, благодаря гиперспецифическим и самоссылающимся данным, следует за тенденцией к ухудшению производительности ИИ с течением времени, еще раз доказывая, как ответы ИИ Google показали, что производительность LLM настолько хороша, насколько хороши данные обучения, и что настоящая искусственность " интеллекта» еще много-много лет.
Источник: Tomshardware.com







0 комментариев