DeepSeek обновил модель: контекст увеличен до 1 млн токенов, улучшены возможности программирования
В сети с нетерпением ждали выпуска новой крупной языковой модели DeepSeek V4, однако компания представила не мажорное обновление, а существенно улучшенную версию текущей модели.
Согласно официальной информации, ключевым нововведением стало значительное увеличение длины контекста — теперь модель способна обрабатывать до 1 миллиона токенов. Для сравнения, предыдущая версия DeepSeek-V3 поддерживала 128 тысяч токенов. Благодаря такому объёму контекста, модель может единовременно анализировать текст, сопоставимый по объёму со всей трилогией «Задача трёх тел» Лю Цысиня, что уже подтвердили тесты пользователей.
В своём сообщении DeepSeek особо подчеркнул, что это именно «последняя модель DeepSeek», у неё нет конкретного подназвания вроде V3 или R1. Это заявление, с одной стороны, указывает на уникальность обновления, а с другой — не позволяет однозначно считать его предварительной версией грядущего DeepSeek V4.
По отзывам пользователей, даже без громкого анонса, обновление принесло заметный прирост производительности. Известный блогер, тестирующий ИИ-модели, @karminski-牙医, провёл быстрый тест, сфокусировавшись на программировании. В рамках теста «слоновья зубная паста» (Elephant's Toothpaste) новая модель показала улучшения в эстетике кода, моделировании, физической симуляции и общей производительности. Блогер заключил, что эта версия превосходит все ранее выпущенные модели DeepSeek и является State-of-the-Art (SOTA) решением в линейке компании.
Пока остаётся неясным, является ли представленная модель окончательной «полноценной» версией. Например, в нашумевшем логическом тесте «идти пешком или ехать на машине 50 метров до автомойки» новая модель DeepSeek даёт противоречивые ответы, которые одни пользователи считают верными, а другие — ошибочными.
Интересный факт: Способность обрабатывать контекст в 1 млн токенов выводит DeepSeek в один ряд с наиболее продвинутыми коммерческими моделями, такими как Claude 3.5 Sonnet. Это позволяет анализировать не только огромные литературные произведения, но и целые базы кода, длинные юридические документы или научные статьи, открывая новые возможности для исследований и автоматизации.









0 комментариев