Тестирање на „најпаметниот во светот“ Grok3

Групацијата Аипу Ваттон (1)

Вовед

Дали мислите дека GroK3 ќе биде „крајната точка“ на претходно обучените модели?

Елон Муск и тимот на XAI официјално ја започнаа најновата верзија на ГРОК, ГРОК3, за време на живо. Пред овој настан, значителна количина на поврзани информации, заедно со промотивната возбуда на Муск 24/7, ги зголеми глобалните очекувања за ГРОК3 до невидени нивоа. Пред само една недела, Муск самоуверено изјави за време на живиот тек, додека коментира за Deepseek R1, „Xai е наскоро да лансира подобар модел на АИ“. Од податоците презентирани во живо, ГРОК3, наводно, ги надминал сите тековни модели на мејнстрим во репер за математика, наука и програмирање, со тоа што Муск дури и тврди дека GroK3 ќе се користи за компјутерски задачи поврзани со мисиите на Mars на SpaceX, предвидувајќи ги „пробивањата на ниво на Нобелова награда во рок од три години“. Сепак, ова се во моментов само тврдења на Муск. По лансирањето, ја тестирав најновата бета верзија на GroK3 и го поставив класичниот трик прашање за големи модели: „Што е поголемо, 9.11 или 9,9?“ За жал, без никакви квалификации или ознаки, таканаречениот најпаметен GroK3 сè уште не можеше правилно да одговори на ова прашање. GroK3 не успеа точно да го идентификува значењето на прашањето.

 

Овој тест брзо привлече значително внимание од многу пријатели, и случајно, разни слични тестови во странство покажаа дека ГРОК3 се бори со основните прашања за физика/математика како „Која топка паѓа најпрво од потпрената кула на Пиза?“ Така, хумористично е етикетиран како „генијалец кој не сака да одговори на едноставни прашања“.

640

Grok3 е добар, но не е подобро од R1 или O1-Pro.

GroK3 доживеа „неуспеси“ на многу тестови за заедничко знаење во пракса. За време на настанот за лансирање XAI, Муск демонстрираше со употреба на GroK3 за да ги анализира часовите за ликови и ефектите од патеката на играта на егзил 2, за кој тој тврди дека игра често, но повеќето од одговорите дадени од GroK3 не биле точни. Муск за време на живиот тек не го забележа ова очигледно прашање.

 

Оваа грешка не само што обезбеди дополнителни докази за прекуокеанските нетизени да го исмеваат Муск за „наоѓање замена“ во игри, туку и предизвика значителна загриженост во врска со веродостојноста на GroK3 во практичните апликации. За таков „генијалец“, без оглед на неговите реални способности, неговата сигурност во екстремно сложени сценарија за примена, како што се задачите за истражување на Марс, останува во сомнеж.

 

Во моментов, многу тестери кои добија пристап до GroK3 пред неколку недели, и оние кои само ги тестираа моделите на можности вчера неколку часа, сите укажуваат на заеднички заклучок: „Grok3 е добар, но не е подобар од R1 или O1-Pro“.

640 (1)

Критична перспектива за „нарушување на Nvidia“

Во официјално претставената PPT за време на објавувањето, GroK3 се покажа дека е „далеку напред“ во арената Chatbot, но оваа умен користена графичка техника: вертикалната оска на таблата на водачот само наведе резултати во опсегот на резултат 1400-1300, со што оригиналната 1% разлика во резултатите од тестот се појавува исклучително значајна во оваа презентација.

640

Во реалните резултати за постигнување на модели, GroK3 е само 1-2% пред Deepseek R1 и GPT-4.0, што одговара на искуствата на многу корисници во практични тестови кои откриле „нема забележителна разлика“. GroK3 ги надминува своите наследници за 1%-2%.

640

Иако GroK3 има постигнато повисоко од сите модели во моментов јавно тестирани, многумина не го сфаќаат ова сериозно: на крајот на краиштата, XAI претходно беше критикуван за „манипулација со резултатите“ во ерата на ГРОК2. Бидејќи лидерот го казнил стилот на должина на одговорот, резултатите значително се намалиле, водечките инсајдери во индустријата честопати го критикуваат феноменот на „висока оценка, но мала способност“.

 

Без разлика дали преку таблата „манипулација“ или трикови за дизајн на илустрации, тие ја откриваат опсесијата на Xai и Муск со поимот „водење на пакетот“ во моделите на модел. Муск плати стрмна цена за овие маргини: за време на лансирањето, тој се пофали дека користеше графички процесор 200.000 H100 (тврдејќи дека „над 100.000“ за време на живиот тек) и постигнување на вкупно време на обука од 200 милиони часа. Ова ги натера некои да веруваат дека тоа претставува уште една значајна придобивка за графичкиот процесор и да го сметаат влијанието на Deepseek врз секторот како „глупаво“. Имено, некои веруваат дека чиста компјутерска моќ ќе биде иднината на обука на модели.

 

Како и да е, некои нетизени ја споредија потрошувачката на графичкиот процесор 2000 H800 во текот на два месеци за производство на DeepSeek V3, пресметувајќи дека вистинската потрошувачка на енергија за обука на GroK3 е 263 пати поголема од V3. Јазот помеѓу Deepseek V3, кој постигна 1402 поени, а Grok3 е нешто помалку од 100 поени. По објавувањето на овие податоци, многумина брзо сфатија дека зад насловот на ГРОК3, бидејќи „најсилниот во светот“ лежи јасен маргинален ефект на комунални услуги - логиката на поголемите модели кои генерираат посилни перформанси започнаа да покажуваат намалување на повратот.

640 (2)

Дури и со „висока оценка, но мала способност“, GroK2 имаше огромни количини на висококвалитетни податоци од прва страна од платформата X (Твитер) за поддршка на употребата. Како и да е, во обуката на GroK3, xai природно се соочи со „таванот“ со кој се соочува Опенаи во моментот - недостатокот на податоци за премиум обука брзо ја изложува маргиналната алатка на можностите на моделот.

 

Програмерите на ГРОК3 и Муск веројатно се први што длабоко ги разбираат и идентификуваат овие факти, поради што Муск постојано спомнува на социјалните медиуми дека верзијата што корисниците ја доживуваат сега е „сè уште само бета“ и дека „целосната верзија ќе биде објавена во наредните месеци“. Муск ја презеде улогата на Менаџерот за производи на ГРОК3, сугерирајќи дека корисниците даваат повратна информација за разни теми што се среќаваат во делот за коментари.

 

Сепак, во рок од еден ден, перформансите на ГРОК3 несомнено кренаа аларми за оние што се надеваат дека ќе се потпираат на „масивни пресметковни мускули“ за обука на посилни големи модели: засновано на јавно достапни информации за Microsoft, GPT-4 на Openai има големина на параметарот од 1,8 трилион параметри, над десет пати од GPT-3. Гласините сугерираат дека големината на параметарот на GPT-4.5 може да биде уште поголема.

 

Како што се зголемуваат големините на параметарот на моделот, трошоците за обука се исто така вртоглави. Со присуството на GroK3, кандидатите како GPT-4.5 и други кои сакаат да продолжат со „горење пари“ за да постигнат подобри перформанси на моделот преку големината на параметарот, мора да го земат предвид таванот што сега е јасно на повидок и да размисли како да го надмине. Во овој момент, Илја Сускевер, поранешен главен научник во Опени, претходно изјави минатиот декември: „Пред-обуката со која сме запознаени ќе дојде до крај“, што повторно се појави во дискусиите, поттикнувајќи ги напорите да го пронајдат вистинскиот пат за обука на големи модели.

640 (3)

Погледот на Илја го звучеше алармот во индустријата. Тој точно предвидува непосредна исцрпеност на достапните нови податоци, што доведува до ситуација кога перформансите не можат да продолжат да се подобруваат преку стекнување на податоци, споредувајќи го со исцрпеност на фосилни горива. Тој посочи дека „како нафта, човечка содржина на Интернет е ограничен ресурс“. Во предвидувањата на Сускевер, следната генерација на модели, пост-тренинг, ќе поседува „вистинска автономија“ и способности за расудување „слични на човечкиот мозок“.

 

За разлика од денешните претходно обучени модели кои првенствено се потпираат на совпаѓање на содржината (врз основа на претходно научената содржина на моделот), идните системи за АИ ќе можат да научат и воспостават методологии за решавање на проблемите на начин сличен на „размислувањето“ на човечкиот мозок. Човекот може да постигне фундаментална владеење во тема со само основна професионална литература, додека голем модел на АИ бара милиони точки на податоци за да се постигне само најосновната ефикасност на влезното ниво. Дури и кога текстот е малку променет, овие фундаментални прашања може да не бидат правилно разбрани, илустрирајќи дека моделот не се подобри во интелигенцијата: основните, но сепак нерешливи прашања споменати на почетокот на статијата претставуваат јасен пример за овој феномен.

微信图片 _20240614024031.jpg1

Заклучок

Како и да е, над бруталната сила, ако ГРОК3 навистина успее да ја открие индустријата дека „претходно обучените модели се приближуваат кон својот крај“, ќе носи значајни импликации за ова поле.

Можеби по лутото опкружување на GroK3 постепено се смирува, ние ќе бидеме сведоци на повеќе случаи како што е примерот на Феи-Феи Ли за „подесување на модели со високи перформанси на специфична база на податоци за само 50 американски долари“, на крајот да го откриеме вистинскиот пат до АГИ.

Пронајдете решение за кабел ELV

Контролни кабли

За BMS, автобус, индустриски, инструментација кабел.

Структуриран систем за каблирање

Мрежа и податоци, кабел со оптички влакна, печ-кабел, модули, плоча за лице

Преглед на изложби и настани од 2024 година

16-ти април-18-ти, 2024 година, Средно-источно-енергија во Дубаи

16-ти април-18-ти, 2024 година Секурика во Москва

Октомври.

Ноември.19-20, 2024 година поврзан светски КСА


Време на објавување: февруари-19-2025 година