A GPT-4 Turbo Vision API-ba való bevezetés a GPT-4 tavaly szeptemberi látási és audio feltöltési funkcióinak debütálása, valamint a turbósított GPT-4 Turbo modell tavaly novemberi, OpenAI fejlesztői konferencián történt bemutatása után történik.
Ez a modell jelentős sebességnövekedést ígér, ahol az input kontextus ablak mérete akár 128,000 tokent is elérhet, ami körülbelül 300 oldalnyi szövegnek felel meg. Ezen felül a fejlesztők számára kedvezőbb árazás is elérhetővé válik.
A modell egyik kulcsfontosságú újítása, hogy az API-kérések használhatják a modell látásfelismerési és elemzési képességeit JSON szöveges formátumban és funkcióhívással.
Ez lehetővé teszi a fejlesztők számára, hogy JSON kódrészleteket generáljanak, amelyek automatizálják a műveleteket a kapcsolódó alkalmazásokban, mint például e-mailek küldése, vásárlások, vagy online posztolás. Az OpenAI azonban erősen ajánlja a felhasználói megerősítési folyamatok kiépítését a való világra hatással lévő műveletek végrehajtása előtt.
Több startup is már kihasználja a GPT-4 Turbo Vision képességeit. Például a Cognition nevű cég Devin nevű AI kódoló ügynöke a modellt használja teljes kódok automatikus generálására.
A Healthify, egy egészségügyi és fitnesz alkalmazás, a modellt használja ételek fotóin alapuló táplálkozási elemzéshez és ajánlásokhoz. A TLDraw, egy brit startup, a modellt használja virtuális fehér táblájának meghajtására, amely a felhasználói rajzokat funkcionális weboldalakká alakítja át.
Mindezek ellenére, hogy az OpenAI szembesül az Anthropic Claude 3 Opus és a Google Gemini Advanced új modelljeinek erős versenyével, az API bevezetése megerősítheti a vállalat pozícióját a vállalati piacon, miközben a fejlesztők a következő nagy nyelvi modellre várnak.