Kineski jeftini, otvoreni AI model DeepSeek oduševljava znanstvenike
29.01.2025.
Kineski veliki jezični model nazvan DeepSeek-R1 oduševljava znanstvenike kao pristupačan i otvoren rival AI modelima kao što je OpenAI-jev o1.
Ovi modeli generiraju odgovore korak po korak, u procesu analognom ljudskom razmišljanju. To ih čini vještijima od ranijih jezičnih modela u rješavanju znanstvenih problema. Početni testovi R1, pokazuju da je njegova izvedba na određenim zadacima u kemiji, matematici i kodiranju jednaka onoj o1 što je oduševilo istraživače.
R1 se ističe iz još jednog razloga, DeepSeek je start-up model stvoren u Hangzhouu i objavljen kao "otvoreni", što znači da istraživači mogu proučavati i graditi na algoritmu. Objavljen pod licencom MIT-a, model se može slobodno ponovno koristiti, ali se ne smatra potpuno otvorenim izvorom jer podaci o obuci nisu dostupni.
DeepSeek nije objavio punu cijenu obuke R1, ali naplaćuje ljudima koji koriste njegovo sučelje oko jedne tridesetine onoga što košta pokretanje o1. Tvrtka je također stvorila mini verzije R1 kako bi omogućila istraživačima s ograničenom računalnom snagom da se igraju s modelom. Sada eksperiment koji je koštao više od 300 funti s o1, košta manje od 10 dolara s R1. Ovo je dramatična razlika koja će sigurno igrati ulogu u budućem usvajanju modela.
Buka oko DeepSeek-a digla se stoga što je uspio napraviti R1 unatoč američkim izvoznim kontrolama koje ograničavaju kineskim tvrtkama pristup najboljim računalnim čipovima dizajniranim za AI obradu.
U referentnim testovima, navedenim u tehničkom dokumentu koji prati model, DeepSeek-R1 postigao je 97,3% točnosti na MATH-500 skupu matematičkih problema koje su izradili istraživači sa Sveučilišta Berkeley u Kaliforniji, i nadmašio je 96,3% ljudskih sudionika u Codeforces natjecanju. One su u rangu s sposobnostima o1; o3 nije bio uključen u usporedbe.