DeepSeek: китайский стартап бросает вызов AI-гигантам

Пока вы думаете, насколько быстро нейросети вытеснят вас из профессии. Китайские разработчики обскакали OpenAI и Google и пожалуй всех, кто развивается в этом направлении.
Все дело в том, что именно DeepSeek удалось создать думающую (LLM) нейросеть.
Это открытая модель, которая сама себя обучает самостоятельно, есть доступ к API, не нужен VPN для использования.
Давайте разбираться что навело такую панику в Кремневой долине и чего стоит ждать от ближайшего развития ИИ?
Что за нейросеть DeepSeek?

Ссылка:DeepSeek
Стоит начать с того, что компания уже выпускала модели, но такого оглушительного успеха, как у DeepSeek V3, у предшественников не было.
На данный момент эта нейросеть заняла первое место по скачиваниям в app store.
Вот в чем основные преимущества:
- У этой модели открытый код, это значит что пользоваться и обучать ее может кто угодно и это будет бесплатно.
- Модель обучалась на огромных объемах данных — 14,8 трлн слов. У неё 671 миллиард параметров, это делает ее лидером в контексте и решении сложных задач.
- Доступна в России, не нужно искать хитрые ходы, чтобы использовать DeepSeek V3.
- Большое количество бесплатных функций, например есть DeepThink, он разбивает сложные задачи на небольшие. Это особенно полезно в решении логических или математических задач.
- Есть доступ в интернет, по этому ответы на вопросы не обязательно перепроверять.
Обучение DeepSeek V3 обошлось компании разработчиков всего 6 млн. долларов, как это отражается на обработке запросов?
Для сравнения, миллион токенов в обработке Open AI o1 — самой доступной модели, стоит 2,50 долларов, тогда как DeepSeek V3 сделает то же самое за 0,14 центов.
Что такое DeepSeek V3?
DeepSeek V3 — это китайский аналог Chat Gpt, то есть, огромная языковая модель, которая способна анализировать большие тексты, писать код, отвечать на пользовательские запросы и искать информацию в интернете.
Главные особенности DeepSeek V3 скрываться в методах обучения:
- Разработчики использовали архитектуру Multi-token Prediction, это позволяет модели анализировать сразу несколько вводимых данных. Проще говоря, она одновременно обрабатывает несколько частей предложения, по этому может предложить сразу несколько решений.
- Кроме Multi-token Prediction, в эту модель заложена экспертная архитектура, или Mixture of Experts (MoE). Это позволяет заранее обученным нейросетям “экспертам”, контролировать генерируемые данные. А еще, это значительно ускоряет обучение нейросети, повышает качество ответов и эффективность.
- Также разработчики использовали Multi-head Latent Attention (MLA) — это механизм внимания нейросетей. Так она не испускает важных деталей при обработке объемного текста.
Благодаря этой системе, по словам разработчиков, DeepSeek V3, смогла обойти GPT-4o, Llama 3 от Meta (признана экстремистской, запрещена в России) и Claude 3.5 Sonnet от Anthropic.

Это результаты тестов DeepSeek V3 — по обработке текстов и генерации кода.
Эта нейросеть предлагает контекстное окно в 128 токенов, это значит что она может обрабатывать текст объемом до 300 страниц. Кроме того, нейросеть может генерировать текст разного объема, в разных жанрах. Расшифровывать диаграммы, описывать картинки.
Кроме того, эта мультиязычная модель с глубоким пониманием английского и китайского языка. Русский язык она также прекрасно поддерживает, понимает запросы и дает корректные ответы.
Как использовать DeepSeek V3 в России?
На данный момент модель предполагает несколько вариантов использования. Так как у нее открытый код, можно найти на платформе huggingface.
Ссылка: huggingface
Если не хотите заморачиваться с интерфейсом платформы, можно использовать в веб версии сайта deepseek. Контекстное окно в этом случае будет урезано до 32 тысяч токенов.
Также можно скачать приложение для IOS и Android и пользоваться мобильным приложением.
Сама нейросеть предполагает максимально простой интерфейс и регистрацию.
Переходя по ссылке на сайт, вы попадаете сразу в диалоговое окно (после регистрации).
Важно! Доступ к нейросети в России не ограничен, VPN не потребуется, она отлично понимает русский язык и работает без ограничений.
Почему выход DeepSeek V3 это абсолютная революция?
Это первая модель нейросети, которая предоставила неограниченный доступ ко всем возможностям. Открытый код — это буквально прорыв в ИИ технологиях.
Плюс компания пока не задокументировала все финансовые данные и с таким низким финансовым входом создать настолько мощную модель пока не удавалось никому.
На данный момент — это не просто конкуренты Open-AI, это настоящая революция в мире ИИ.