DeepSeek: Все, що вам потрібно знати про додаток чат-бота зі штучним інтелектом

Китайська лабораторія штучного інтелекту DeepSeek цього тижня увірвалася в широку громадськість після того, як її додаток чат-бота піднявся на вершину чартів Apple App Store (а також Google Play). Моделі штучного інтелекту DeepSeek, які були навчені з використанням обчислювально-ефективних методів, змусили аналітиків з Уолл-стріт – і технологів – засумніватися в тому, чи зможуть США зберегти своє лідерство в гонці штучного інтелекту та чи збережеться попит на чіпи штучного інтелекту.

Але звідки взявся DeepSeek, і як він так швидко здобув міжнародну славу?

Походження DeepSeek як трейдера

DeepSeek підтримується High-Flyer Capital Management, китайським гедж-фондом (приватним інвестиційним фондом з використанням об'єднаних коштів), який використовує штучний інтелект для прийняття обґрунтованих торгових рішень.

Лян Веньфен, ентузіаст штучного інтелекту, став співзасновником High-Flyer у 2015 році. Веньфен, який, як повідомляється, почав займатися торгівлею ще будучи студентом Чжецзянського університету, запустив High-Flyer Capital Management як гедж-фонд у 2019 році, що спеціалізується на розробці та впровадженні алгоритмів штучного інтелекту.

У 2023 році High-Flyer заснувала DeepSeek як лабораторію, що займалася дослідженням інструментів штучного інтелекту окремо від свого фінансового бізнесу. За участі High-Flyer, як одного з інвесторів, лабораторія відокремилася у власну компанію під назвою DeepSeek.

З першого дня DeepSeek створила власні кластери центрів обробки даних для навчання моделей. Але, як і інші компанії зі штучного інтелекту в Китаї, DeepSeek постраждала від заборони США на експорт обладнання . Для навчання однієї зі своїх новіших моделей компанія була змушена використовувати чіпи Nvidia H800, менш потужну версію чіпа H100, доступного для американських компаній.

Кажуть, що технічна команда DeepSeek складається переважно з молодих фахівців. За повідомленнями The New York Times, компанія активно набирає докторантів-дослідників у галузі штучного інтелекту з провідних китайських університетів. DeepSeek також наймає людей без будь-якої освіти в галузі інформатики, щоб допомогти своїм технічним спеціалістам краще зрозуміти широкий спектр тем.

Сильні моделі DeepSeek

DeepSeek представив свій перший набір моделей — DeepSeek Coder, DeepSeek LLM та DeepSeek Chat — у листопаді 2023 року. Але лише минулої весни, коли стартап випустив сімейство моделей DeepSeek-V2 наступного покоління, індустрія штучного інтелекту почала звертати на це увагу.

DeepSeek-V2, універсальна система аналізу тексту та зображень, добре показала себе в різних тестах штучного інтелекту та була набагато дешевшою в експлуатації, ніж аналогічні моделі на той час. Це змусило внутрішніх конкурентів DeepSeek, включаючи ByteDance та Alibaba, знизити ціни на використання деяких своїх моделей, а інші зробити повністю безкоштовними.

DeepSeek-V3 , запущений у грудні 2024 року, лише посилив скандальну популярність DeepSeek.

Згідно з внутрішнім тестуванням DeepSeek, DeepSeek V3 перевершує як завантажувані, відкрито доступні моделі, такі як Llama від Meta , так і «закриті» моделі, до яких можна отримати доступ лише через API, такі як GPT-4o від OpenAI .

Не менш вражаючою є модель «міркування» R1 від DeepSeek. Випущена в січні, DeepSeek стверджує, що R1 працює так само добре, як і модель o1 від OpenAI, за ключовими тестами .

Будучи моделлю міркування, R1 ефективно перевіряє факти самостійно, що допомагає їй уникнути деяких пасток, які зазвичай спотикають моделі. Моделі міркування потребують трохи більше часу — зазвичай від кількох секунд до кількох хвилин — для отримання рішень порівняно з типовою моделлю без міркування. Перевагою є те, що вони, як правило, надійніші в таких галузях, як фізика, природничі науки та математика.

Однак у R1, DeepSeek V3 та інших моделей DeepSeek є й недолік. Будучи штучним інтелектом, розробленим у Китаї, вони проходять бенчмаркінг з боку китайського інтернет-регулятора, щоб переконатися, що їхні відповіді «втілюють основні соціалістичні цінності». Наприклад, у чат-застосунку DeepSeek R1 не відповідатиме на запитання про площу Тяньаньмень чи автономію Тайваню.

У березні кількість відвідувань DeepSeek перевищила 16,5 мільйона . «За березень DeepSeek посідає друге місце, незважаючи на падіння трафіку на 25% порівняно з лютим, виходячи з щоденних відвідувань», – сказав TechCrunch Девід Карр, редактор Similarweb. Це все ще блідне в порівнянні з ChatGPT, кількість активних користувачів якого перевищила 500 мільйонів щотижневих відвідувачів у березні.

У травні DeepSeek випустила оновлену версію своєї моделі штучного інтелекту R1 на платформі для розробників Hugging Face.

Руйнівний підхід

Якщо у DeepSeek є бізнес-модель, то незрозуміло, яка саме ця модель. Компанія встановлює ціни на свої продукти та послуги значно нижче ринкової вартості, а інші роздає безкоштовно. Вона також не бере гроші інвесторів , незважаючи на чималий інтерес венчурного капіталу.

Як стверджує DeepSeek, прориви в ефективності дозволили їй підтримувати надзвичайну конкурентоспроможність витрат. Однак деякі експерти оскаржують надані компанією цифри.

У будь-якому разі, розробники скористалися моделями DeepSeek, які не є відкритим кодом, як це зазвичай розуміють, але доступні за спеціальними ліцензіями, що дозволяють комерційне використання. За словами Клема Деланга, генерального директора Hugging Face, однієї з платформ, що розміщує моделі DeepSeek, розробники Hugging Face створили понад 500 «похідних» моделей R1 , які разом зібрали 2,5 мільйона завантажень.

Успіх DeepSeek у порівнянні з більш відомими конкурентами був описаний як «революція в галузі ШІ» і «переоцінений». Успіх компанії принаймні частково спричинив падіння ціни акцій Nvidia на 18% у січні, а також викликав публічну реакцію генерального директора OpenAI Сема Альтмана. У березні бюро Міністерства торгівлі США повідомили своїм співробітникам, що DeepSeek буде заборонено на їхніх урядових пристроях, повідомляє Reuters...

Microsoft оголосила, що DeepSeek доступний на її сервісі Azure AI Foundry , платформі Microsoft, яка об'єднує послуги штучного інтелекту для підприємств під одним банером. Коли під час конференції з оприлюднення результатів діяльності за перший квартал генерального директора Марка Цукерберга запитали про вплив DeepSeek на витрати Meta на штучний інтелект, він заявив, що витрати на інфраструктуру штучного інтелекту й надалі будуть «стратегічною перевагою» для Meta. У березні OpenAI назвала DeepSeek «субсидованим державою» та «контрольованим державою» і рекомендувала уряду США розглянути можливість заборони моделей DeepSeek.

Під час конференції Nvidia щодо прибутків за четвертий квартал генеральний директор Дженсен Хуанг наголосив на «чудовій інновації DeepSeek», заявивши, що вона та інші моделі «міркування» чудово підходять для Nvidia, оскільки їм потрібно набагато більше обчислювальних ресурсів.

Водночас деякі компанії забороняють DeepSeek , а також цілі країни та уряди , зокрема Південна Корея . Штат Нью-Йорк також заборонив використання DeepSeek на урядових пристроях .

У травні віце-голова правління та президент Microsoft Бред Сміт заявив на слуханнях у Сенаті, що співробітникам Microsoft заборонено використовувати DeepSeek через проблеми безпеки даних та пропаганди.

Щодо майбутнього DeepSeek, то воно незрозуміле. Покращені моделі є само собою зрозумілим. Але уряд США, схоже, дедалі більше побоюється того, що він сприймає як шкідливий іноземний вплив . У березні The Wall Street Journal повідомила, що США, ймовірно, заборонять DeepSeek на урядових пристроях .

За матеріалами techcrunch

STARTUP SCHOOL

Шукати в цьому блозі

Старт другого Міжнародного конкурсу інноваційних проєктів Melville Sikorsky Challenge Accelerator