DeepSeek: китайский стартап бросает вызов AI-гигантам

Пока вы думаете, насколько быстро нейросети вытеснят вас из профессии. Китайские разработчики обскакали OpenAI и Google и пожалуй всех, кто развивается в этом направлении. 

Все дело в том, что именно DeepSeek удалось создать думающую (LLM) нейросеть. 

Это открытая модель, которая сама себя обучает самостоятельно, есть доступ к API, не нужен VPN для использования. 

Давайте разбираться что навело такую панику в Кремневой долине и чего стоит ждать от ближайшего развития ИИ? 

Что за нейросеть DeepSeek? 

Что за нейросеть DeepSeek?

Ссылка:DeepSeek

Стоит начать с того, что компания уже выпускала модели, но такого оглушительного успеха, как у DeepSeek V3, у предшественников не было. 

На данный момент эта нейросеть заняла первое место по скачиваниям в app store. 

Вот в чем основные преимущества: 

  • У этой модели открытый код, это значит что пользоваться и обучать ее может кто угодно и это будет бесплатно. 
  • Модель обучалась на огромных объемах данных — 14,8 трлн слов. У неё 671 миллиард параметров, это делает ее лидером в контексте и решении сложных задач. 
  • Доступна в России, не нужно искать хитрые ходы, чтобы использовать  DeepSeek V3.
  • Большое количество бесплатных функций, например есть DeepThink, он разбивает сложные задачи на небольшие. Это особенно полезно в решении логических или математических задач. 
  • Есть доступ в интернет, по этому ответы на вопросы не обязательно перепроверять. 

Обучение DeepSeek V3 обошлось компании разработчиков всего 6 млн. долларов, как это отражается на обработке запросов? 

Для сравнения, миллион токенов в обработке Open AI o1 — самой доступной модели, стоит 2,50 долларов, тогда как DeepSeek V3 сделает то же самое за 0,14 центов. 

Что такое DeepSeek V3?

DeepSeek V3 — это китайский аналог Chat Gpt, то есть, огромная языковая модель, которая способна анализировать большие тексты, писать код, отвечать на пользовательские запросы и искать информацию в интернете. 

Главные особенности DeepSeek V3 скрываться в методах обучения: 

  • Разработчики использовали архитектуру Multi-token Prediction, это позволяет модели анализировать сразу несколько вводимых данных. Проще говоря, она одновременно обрабатывает несколько частей предложения, по этому может предложить сразу несколько решений. 
  • Кроме Multi-token Prediction, в эту модель заложена экспертная архитектура, или Mixture of Experts (MoE). Это позволяет заранее обученным нейросетям “экспертам”, контролировать генерируемые данные. А еще, это значительно ускоряет обучение нейросети, повышает качество ответов и эффективность. 
  • Также разработчики использовали Multi-head Latent Attention (MLA) — это механизм внимания нейросетей. Так она не испускает важных деталей при обработке объемного текста.

Благодаря этой системе, по словам разработчиков, DeepSeek V3, смогла обойти GPT-4o, Llama 3 от Meta (признана экстремистской, запрещена в России) и Claude 3.5 Sonnet от Anthropic.

результаты тестов DeepSeek V3

Это результаты тестов DeepSeek V3 — по обработке текстов и генерации кода. 

Эта нейросеть предлагает контекстное окно в 128 токенов, это значит что она может обрабатывать текст объемом до 300 страниц. Кроме того, нейросеть может генерировать текст разного объема, в разных жанрах. Расшифровывать диаграммы, описывать картинки. 

Кроме того, эта мультиязычная модель с глубоким пониманием английского и китайского языка. Русский язык она также прекрасно поддерживает, понимает запросы и дает корректные ответы. 

Как использовать DeepSeek V3 в России?

На данный момент модель предполагает несколько вариантов использования. Так как у нее открытый код, можно найти на платформе huggingface.

Ссылка: huggingface

Если не хотите заморачиваться с интерфейсом платформы, можно использовать в веб версии сайта deepseek. Контекстное окно в этом случае будет урезано до 32 тысяч токенов. 

Также можно скачать приложение для IOS и Android и пользоваться мобильным приложением. 

Сама нейросеть предполагает максимально простой интерфейс и регистрацию.

Переходя по ссылке на сайт, вы попадаете сразу в диалоговое окно (после регистрации). 

Важно! Доступ к нейросети в России не ограничен, VPN не потребуется, она отлично понимает русский язык и работает без ограничений. 

Почему выход DeepSeek V3 это абсолютная революция? 

Это первая модель нейросети, которая предоставила неограниченный доступ ко всем возможностям. Открытый код — это буквально прорыв в ИИ технологиях.

Плюс компания пока не задокументировала все финансовые данные и с таким низким финансовым входом создать настолько мощную модель пока не удавалось никому. 

На данный момент — это не просто конкуренты Open-AI, это настоящая революция в мире ИИ.

guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии