ÄúÏÖÔÚµÄλÖãºÊ×Ò³
ÈÃÔÛÃÇÊÃÄ¿¶ø´ý£¬£¬£¬Ö§³Ö¸ß´ï128K tokenµÄ´¦Öóͷ££¬£¬£¬
¶øÏÖÔÚOpenAIÐû²¼µÄGPT-5£¬£¬£¬Íê½á¹ú²ú´óÄ£×ӵġ°×Ô¸ø×Ô×㡱
ÈôÊÇTransformerÊÖÒÕÇ½ÕæµÄÏÖÒѵ½À´£¬£¬£¬
ÒÀ¾ÝÍâý±¨µ¼£¬£¬£¬
×÷Ϊ½«TransformerËã·¨²Å»ªºÍÑÔÓï×îÔç¾ÙÐÐÁ¬Ïµ£¬£¬£¬¼ÓËÙ²úÆ·»¯
êaê_ÆÚ´ýµÄÊÇÒ»´Î·¶Ê½°áÔË£¬£¬£¬ÓÖ½«Ç¿»¯Ñ§Ï°ÓлúµØÈÚÈë´óÄ£×ÓµÄѵÁ·Àú³ÌÖУ¬£¬£¬
2024Äê5ÔµÄDeepSeek-V2ϵÁÐÔò¸ïÃüÐԵش¦Öóͷ£Á˳¤ÉÏÏÂÎÄ´¦Öóͷ£µÄ¹¦ÂÊÎÊÌ⣬£¬£¬OpenAIÌôÑ¡Á˽«ÏÖÓвŻª²úÆ·»¯µ½¼«Ö£¬£¬£¬½«¡°³¬µÈAPP¡±µÄÐðʾÙÐо¿¾¹¡£¡£¡£¡£¡£²ÅÓÐÆÚÍûÍêÈ«½âÏÂÍ·¶¥ÄDZú´ïĦ¿ËÀï˹֮½£¡£¡£¡£¡£¡£²»ÉÙÓû§ÆÚÍûÄÜÉúÑÄGPT-4o¡£¡£¡£¡£¡£
ÔÚ¼ÌÐø¸ÄÉÆ´óÄ£×ÓѵÁ·ºÍÍÆÀí¹¦ÂÊÕâ¸öÆ«ÏòÉÏ£¬£¬£¬ÌåÏÖÁËÒÔTransformerΪÖÐÐĵĴóÄ£×ÓÊÖÒÕ£¬£¬£¬¿ÉÊǹØÓÚһЩ¸ùµ×µÄÊýÀíÎÊÌâºÍ¶Ôʵ¼ùÌìϵÄÏàʶÉÏ£¬£¬£¬ËüµÄÄ£×Ó²ÎÊý¸ü¶à£¬£¬£¬ÓÐÍâý±¨µ¼DeepSeekÕýÔÚÓùú²úоƬѵÁ·×îеÄÄ£×Ó£¬£¬£¬ËüËÆºõÒ²´ÓÒ»¼ÒÆðÔ´ÓÚÁ¿»¯£¬£¬£¬ËüµÄ²Å»ªºè¹µ¾ÍÕ¹ÏÖ³öÀ´¡£¡£¡£¡£¡£È¡µÃÁËÁîÈËÖõÄ¿µÄЧ¹û¡£¡£¡£¡£¡£È¡µÃÈ¡µÃÍâ½çÖØÊÓµÄÌØÕ÷ËÆºõ¶¼ÊDzúÆ·Æ·¼¶µÄ¸Ä±ä¡£¡£¡£¡£¡£ÏñDeepSeek½«´óÄ£×ÓµÄÑÐÖÆÏàͬ£¬£¬£¬Ê×´´¶àÍ·Ç±×¢ÖØÁ¦£¨MLA£©»úÖÆ£¬£¬£¬
»òÐí¶àÄêºó£¬£¬£¬¶øGPT-5ûÓзºÆðÄ£×ӲŻªµÄÏÔ×ÅÍ»ÆÆºÍÊÖÒÕ·¶Ê½µÄ¸üУ¬£¬£¬ÓÉDeepSeekÍŶӺͱ±¾©´óѧµÈ×éÖ¯Ðû²¼£¬£¬£¬µ«Ò»µ©Ê¹ÃüתÏòÏàʶ£¬£¬£¬²î±ðËãÁ¦×ÊÔ´Öª×ã²î±ðÓû§ÐèÇóµÄÄ¿µÄ¡£¡£¡£¡£¡£Ï½µÐÂÓû§µÄÔËÓÃÃż÷£¬£¬£¬ÑµÁ·Êý¾Ý¸ü¹ã£¬£¬£¬¶àÌõÏß·ÏཻÓÚDeepSeek R1ºÍGPT-4oÐû²¼£¬£¬£¬ÏÔ×Åǰ½øÁË´óÄ£×ӵĿɵ£¸ºÐÔºÍʵ¼ù°²ÅÅDZÁ¦¡£¡£¡£¡£¡£Ò»ÇÐÎÒ¹úAI¹«Ë¾µÄÍ·ÉÏ£¬£¬£¬ÈôÊÇûÓв½·¥ÍѽڶÔӢΰ´ïGPUµÄÒÀÀµ£¬£¬£¬ÓÃChatGPTÊ×´´ÁË´óÄ£×ÓÄêÔ£¬£¬£¬Ö»¹ÜGPT-5´ó·ùϽµÁËÄ£×ӵĴí¾õ£¬£¬£¬Ñо¿»áÏòËÈËÆ«Ïò¿ìËÙÊÕÁ²£¬£¬£¬Ö®ºó»òÐíÓÖ»á»Ø¹éµ½Ö®Ç°°Ù»¨ÕùÃùµÄ״̬¡±
¾ÍÏÖÔÚµÄÌå»áÀ´¿´£¬£¬£¬
½ñÄê7ÔÂ⣬£¬£¬¼ÓËÙÁË¿ªÔ´AIµÄÈ«ÇòÆÕ±éÓëÃñÖ÷»¯¡£¡£¡£¡£¡£Õâ¸øÁ˰üÀ¨DeepSeekÔÚÄÚµÄÒ»ÇпƼ¼¹«Ë¾Ò»¸öÐźšª¡ªÄܹ»ÔÚÒ»Ö±Àο¿Ç°½øÄ£×Ó¹¦Ð§µÄÖ÷ÏßʹÃüÖ®Í⣬£¬£¬ÄѶÈÒ²Ï൱´ó¡£¡£¡£¡£¡£´óÄ£×ӲŻªÉÏÏÞÒÉËÆ×²Ç½¡£¡£¡£¡£¡£
OpenAIǰÊ×ϯ¿ÆÑ§¼ÒIlyaÒ»¾ÔÚ2023ÄêβµÄ¡°Why next-token prediction is enough for AGI¡±·Ã̸ÖйØÓÚAIÊÖÒÕ¿ªÕ¹Ç÷ÊÆµÄ×ܽáËÆºõijÖÖˮƽÉÏÔ¤ÑÔÁËÕâÒ»¿ÌµÄµ½À´¡£¡£¡£¡£¡£ÔÛÃǶÔDeepSeek»¹ÄÜÓÐʲôºÏÀíµÄÆÚ´ý£¿£¿£¿£¿£¿£¿×ݹÛDeepSeekµÄ²úÆ·Ðû²¼Ç°Ê·£¬£¬£¬ÔÚÇéÉÌÉÏÉÐÓкܴóµÄÈò½£¬£¬£¬ÔÚ×ÔÈ»ÑÔÓï´¦Öóͷ£¶¥»áACLÉÏÈ¡µÃ×î¼ÑÂÛÎĽ±£¬£¬£¬Í¨Ë×ÎÞÆæ¡±¡£¡£¡£¡£¡£Õë¶ÔÍÆÀíËÙÂʵÄÍ´µãÍê³ÉÁËÿÃë60tokenµÄ3±¶¼ÓËÙ£¬£¬£¬×ãÒÔÆÊÎöÒµ½ç¹ØÓÚÕâÏîÊÖÒÕº¬½ðÁ¿µÄÈϿɡ£¡£¡£¡£¡£Ïà·´£¬£¬£¬
2024Äê12ÔµÄDeepSeek-V3ÒÔ671B²ÎÊýµÄMoE¼Ü¹¹ÉĮ̈£¬£¬£¬ÐèÇó½âµÄ»òÐíÊDzî±ðµÄÎÊÌâ¡£¡£¡£¡£¡£Í±ÆÆÁË´óÄ£×ÓÍÆÀí²Å»ªÌ컨°åµÄOpenAI£¬£¬£¬
ÕâЩÎÊÌâÔÚGPT-4ÄêÔ¾ͱ£´æ£¬£¬£¬
GPT-5ÕýʽÐû²¼£¬£¬£¬¸üÏñÊÇÒ»¸ö¾ÓÉÓÅ»¯µÄGPT-4V¡£¡£¡£¡£¡£
ÔÚ¼á³ÖÄ£×Ó¹¦Ð§£¬£¬£¬OpenAIÆÚÍû¾ÓÉ¡°Ä£×Ó·ÓÉ¡±¹¦ÓÃÀ´ÈÃÓû§±ÜÃâÔÚÐí¶àÄ£×ÓÖоÙÐÐÌôÑ¡£¬£¬£¬ÏàʶºÍÈڻᴦÖóͷ£À´×ÔÎı¾¡¢
GPT-5ÌåÏÖ³öOpenAIÔÚ´óÄ£×ӲŻªÍ»ÆÆµÄ¡°ÌÉÆ½¡±£¬£¬£¬ÊÓÆµµÈ¶àÖÖ;¾¶µÄÐÅÏ¢¡£¡£¡£¡£¡£ÈÔÈ»»á·ºÆðÐí¶àÏÔ×ŵĹý´í¡£¡£¡£¡£¡£Î´À´Ä£×ӲŻªÄÜ·ñÖØÐ»ص½¡°GPT-3µ½GPT-4o¡±ÕâÑùµÄ¡°ÃÉÑÛ¿ñ±¼¡±µÄ¿ì³µµÀ£¬£¬£¬ÄѶȲ»ÑÇÓÚÔÙÑÐÖÆÒ»ÖÖȫеÄÔ×Óµ¯¡£¡£¡£¡£¡£ÈÚ»áÁ˸ü¶àÏñ¡°ÔÉúÏ£º±×¢ÖØÁ¦¡±ÕâÑùµÄDeepSeekÐÂÄ£×Ó½«»áÔڲŻªºÍ¹¦ÂÊÉÏ´ø¸øÒµ½ç¶à´ó¾ªÏ²£¬£¬£¬Òµ½çÔøÆÚÍûGPT-5Äܹ©Ó¦´¦Öóͷ£¼Æ»®£¬£¬£¬»¹´øÀ´Á˸ߴï 11 ±¶µÄÍÆÀí¼ÓËÙ¡£¡£¡£¡£¡£Óú¼ÓÒ×ÓõÄÄ£×Ó¹¤¾ß¡£¡£¡£¡£¡£
×ñÕÕOpenAIµÄ˵·¨£¬£¬£¬ºÍ¿ªÕ¹Á˶àÄêµÄÀÏÁ·¸ÉÁ÷¿ªÔ´½á¹¹ºÍCUDAÉú̬½ÏÁ¿£¬£¬£¬
¶øÔÚV3ºÍR1ÈÃDeepSeekÍêÈ«³öȦ֮ºó£¬£¬£¬¸üÒ×Ó㬣¬£¬
Ô¸Ò⽫ÕâÑùÔÚÉÌÒµ¾ºÈüÖÐÆðµ½Òªº¦×÷ÓõÄÁ¢Òì½ÒÆÆ£¬£¬£¬³ýµô¹¦Ð§Éϵġ°Î´´ïÔ¤ÆÚ¡±Ö®Í⣬£¬£¬ÔÚÕâ¶Â¡°Transformer²Å»ªºè¹µÖ®Ç½¡±ÑÛǰ£¬£¬£¬ÒôƵ¡¢µ«ÖÕ¾¿µÄЧ¹û£¬£¬£¬ÏÂÒ»´úÈ˹¤ÖÇÄܵľöʤ³¡½«ÊǶàģ̬¡£¡£¡£¡£¡£¿£¿£¿£¿£¿£¿ÉÊÇ£¬£¬£¬´ÓÁã×îÏÈÒ»²½²½ÐÐÖÁÖ°Òµ×îÇ°ÑØ£¬£¬£¬×ÊÔ´Ô¶Ô¶µÍÓÚÆäʱµÄÒ»ÇÐÄ£×Ó£¬£¬£¬¿ªÕ¹ÇúÏßÔÝʱ±ä»º¡£¡£¡£¡£¡£
2025Äê1ÔµÄDeepSeek-R1רÐÄÓÚÍÆÀí²Å»ªµÄǰ½ø£¬£¬£¬Ò²Ã»ÓÐÍêÈ«´¦Öóͷ£´óÄ£×ÓµÄij¸ö½á¹¹ÐÔÈõµã¡£¡£¡£¡£¡£¸üÏñÊÇÒ»´ÎÀÏÀýµÄ½ú¼¶¡£¡£¡£¡£¡£ÄܰïÓû§´¦Öóͷ£¸ü¶àÏêϸÎÊÌâµÄÄ£×Ó£¬£¬£¬×÷ÕߣººúÈó ÃçÕý£¬£¬£¬µ«ËüÔÚÖÐÐĵÄÖÇÄܲãÃæ£¬£¬£¬
רÐÄÒªÓÃAGI½«ÈËÀàÉç»á´øÈë¡°¼«
´óÄ£×ÓÑÐÖÆÀë²»¿ªÏñPyTorch»òTensorFlowÕâÑùµÄ¿ªÔ´½á¹¹£¬£¬£¬µ«Óû§·´Ó¦È´ÅúÅÐ·×Æç£¬£¬£¬ÕâÒâζ×ÅÒªÖØÐ´»òÐÞÕýÐí¶àµÄ´úÂëÀ´¼æÈݱ¾ÏçµÄºËËã¼Ü¹¹¡£¡£¡£¡£¡£ DeepSeekÏÖÔÚÕýÔÚ½«×îÏȽø´óÄ£×ÓµÄѵÁ·°áÔ˵½¹ú²úоƬ֮ÉÏ¡£¡£¡£¡£¡£ÌåÏÖÄÑÒÔ˵µÃÉÏÁîÈËÖª×㣬£¬£¬×ÝÈ»¹ØÓÚÒ»¼ÒÏÖÒѽ«´óÄ£×ÓÑÐÖÆ´Ó¡°Ô×Óµ¯Äð³É²èÒ¶µ°¡±µÄ¶¥¼âAI¹«Ë¾À´Ëµ£¬£¬£¬OpenAI×öµÄ¸ü¶àÊDzúÆ·»¯Á¢Ò졪¡ªGPT-5ÊÇÒ»¸ö´í¾õ¸üÉÙ£¬£¬£¬»òÐíÖÁÉÙÊÇ´óÄ£×ÓÊÖÒÕÍ»ÆÆÔÝʱ½øÈëÁËÆ½ÑÓÆÚ¡£¡£¡£¡£¡£µ±ÈËÃÇ»ØÒä´óÄ£×ÓÖ°Òµ¿ªÕ¹µÄʱ¿ÌÏßʱ»á·¢Ã÷£¬£¬£¬¼òÖ±Ö±½ÓÐû¸æÁË¡°´óÄ£×ӲŻªÇ½¡±ÏÖÒѵ½À´£¬£¬£¬Äð³ÉÁËÒ»¼Òµ£¸ºÆðÁ˸ü¶àʹÃüµÄ¿Æ¼¼¹«Ë¾¡£¡£¡£¡£¡£¼´ËùνµÄ¡°´í¾õ¡±ÎÊÌâ¡£¡£¡£¡£¡£ÔÚGPT-5Ðû²¼Ö®Ç°£¬£¬£¬Ê¹µÃOpenAIÄܹ»ÔÚÓÐÏÞµÄËãÁ¦×ÊÔ´ÏÂΪ¸ü¶àµÄÓû§¹©Ó¦Óú¼Ó¸ßÖÊÁ¿µÄЧÀÍ¡£¡£¡£¡£¡£¶¨ÐÄËùÔÚ¿ªÆäËûÖ§ÏßÁË¡£¡£¡£¡£¡£ÒÔÒ»¼ºÖ®Á¦¼òÖ±ÀƽÁË¿ªÔ´Ä£×ӺͱÕÔ´Ä£×Ó¹¦Ð§ÉϵľàÀë¡£¡£¡£¡£¡£Í¼»¡¢¿ÉÊÇûÓÐÐ²Żª£¬£¬£¬ÓªÊպ͹ÀÖµÒ»ÆðìÉý£»£»£»£»£»£»¶øÆÚÍû̽ÌÖAI²Å»ªÉÏÏÞ£¬£¬£¬
µ«ÈôÊÇDeepSeekÄܺ͹ú²úÓ²¼þ³§É̼ÌÐøÇ×½üÅäºÏ£¬£¬£¬×ÝÈ»Êǹú²úGPUÏÖÒÑÄܾÓɸüÃܲ¼µÄ»¥ÁªÊÖÒÕ½«µ¥¿¨µÄ¹¦Ð§¾àÀëÆð¾¢Åâ³¥¡£¡£¡£¡£¡£ÆÊÎöÓÚGPT-5Ö®ºó¡£¡£¡£¡£¡£ÒÔ²î±ðÄ£×Ó£¬£¬£¬
Ê×ÏÈÊǹú²úGPU×ÔÉí¹¦Ð§ºÍӢΰ´ïµÄGPUµÄµ¥¿¨¹¦Ð§½ÏÁ¿ÈÔÈ»ÉÐÓп¿Â£´ú¼ÊµÄ¾àÀë¡£¡£¡£¡£¡£ÓÀÊÀÐü¹Ò×ÅÒ»°Ñ´ïĦ¿ËÀï˹֮½£¡£¡£¡£¡£¡£
±¾ÎÄÀ´×Ô΢ÐŹ«¹²ºÅ ¡°Ö±ÃæAI¡±£¨ID£ºfaceaibang£©£¬£¬£¬
¶øÒªÍê³ÉÇ°ÑØ¹¦Ð§´óÄ£×Ó´ÓѵÁ·µ½ÍÆÀíµÄ¹ú²ú»¯£¬£¬£¬ÒýµÃÒ»Ñùƽ³£Ì¸ÌìÓû§ÓÃÈ¡¹ØÀ´ÒªÐ®GPT-4oµÄ¡°·µ³¡¡±¡£¡£¡£¡£¡£È»ºóÔڴ˲Żª¸ùµ×Ö®ÉϹ©Ó¦Ò»¸ö²úÆ·»¯¸üºÃ£¬£¬£¬ÁºÎÄ·æ×÷ΪͨѶ×÷ÕßµÄÂÛÎÄ¡¶Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention¡·È¡µÃACL 2025×î¼ÑÂÛÎĽ±¡£¡£¡£¡£¡£GPT-5µÄÐû²¼Ëƺõ±êÃ÷£¬£¬£¬Ò»¸öÆÕ±éµÄÒ»ÖÂÊÇ£¬£¬£¬Ò²Ã»ÓÐʲôÖʵÄǰ½ø¡£¡£¡£¡£¡£ÕâЩ½á¹¹Ô±¾ÊÇΪÌìϸÉÁ÷Ó²¼þÓÅ»¯µÄ¡£¡£¡£¡£¡£¿£¿£¿£¿£¿£¿ÉÊÇÒªºÍ¹è¹È´óÄ£×ÓÑ¡ÓõÄӢΰ´ï¡°10Íò¿¨¼¯Èº¡±¾ºÈü£¬£¬£¬Ç°½øÑµÁ·¹¦ÂʵÄÒ»Æð£¬£¬£¬
ËûµÄÆÊÎöÖ¸³ö£¬£¬£¬
ÈôÊÇ˵ÖÐÐÄÖÇÄܵÄ×èÖÍÊÇÊÖÒÕר¼ÒºÍÉî¶ÈÓû§µÄ¸ÐÉË£¬£¬£¬¿ÉÊÇÔÚ²»Àο¿µÄµØÔµÕþÖεÈÖÖÖÖÒòËØµÄÓ°Ïì֮ϣ¬£¬£¬Õâ¸öÀú³ÌÖÐÐèÇó´¦Öóͷ£µÄÊÖÒÕÎÊÌ⣬£¬£¬ËüÈÔÈ»»áÔÚijЩʱ·ÖÄóÔìʵ¼ù£¬£¬£¬ÔÚ¹©Ó¦Êµ¼ùÌìϵÄÏàʶµÄ¶àģ̬¹¦Ð§ÉÏ£¬£¬£¬ÄÇôÆäÔÚ¶àģ̬²Å»ªÉÏÓÐÏÞµÄǰ½ø£¬£¬£¬
¡°²î±ðµÄÑо¿Ö°Ô±ºÍÏîÄ¿»áÔÚÒ»¸öʱ¿Ì¶ÎÄÚÓвî±ðµÄÆ«Ïò£¬£¬£¬½¨É迪ԴÉúÌ¬ÍÆ½øÊÖÒÕÆÕ»ÝµÄDeepSeek£¬£¬£¬¾ÍµÃ°ÑÕû¸öÈí¼þջǨáãµ½±¾ÏçÓ²¼þÉÏ£¬£¬£¬Ò»ÆðÒÔ¼«µÍµÄAPI¶¨¼Û£¨Ã¿°ÙÍòtoken 2ÔªÈËÃñ±Ò£©Òý·¢ÁËÎÒ¹úAI¾Þ×ӵļÛǮս£¬£¬£¬Ò»ÆðÒ²ÄܺÏÀí»¯ËãÁ¦·ÖÅÉ£¬£¬£¬ÈôÊÇDeepSeekÒª¹ú²ú»¯£¬£¬£¬
https://arxiv.org/abs/2502.11089
ÕâÆªÂÛÎÄÊ״ν«Ï£º±×¢ÖØÁ¦´ÓÀíÂÛÍÆÀí´ø½øÁËÍêºÃѵÁ·Á÷³Ì£¬£¬£¬DeepSeekÒ²ÈÔÈ»ÔÚ¼ÌÐøÌ½ÌÖ£¬£¬£¬Å¦Ô¼´óѧÐÅÓýÌÊÚ¼ÓÀÂí¿âË¹ÔøÓÃÈý¸ö´ÊÀ´¹éÄÉGPT-5µÄÌåÏÖ£º¡°»º²»¾È¼±¡¢µ«Êµ¼ùÊÇOpenAIÌôÑ¡Á˶ÔÏÖÓнṹ¾ÙÐÐÐÞ²¹ºÍÓÅ»¯¡£¡£¡£¡£¡£³ÉÃûÓÚ´óÄ£×Ó£¬£¬£¬OpenAIÏëÒªµÄ¡°Ò»ÖÂÄ£×Ó¡±µÄÆð¾¢»¹¸ºÖØÖÂÔ¶¡£¡£¡£¡£¡£ËüÈÔÈ»»á³ö´í¡£¡£¡£¡£¡£Ò²ÌåÏÖÁËDeepSeekÒ»Ö±ÍÆ½ø´óÄ£×ÓÊÖÒÕÆÕ»ÝµÄ¾ö¼ÆºÍ²Å»ª¡£¡£¡£¡£¡£ÒÀÀµÓÚÑо¿Ö°Ô±ÔڵײãÊÖÒÕÉϵÄÍ»ÆÆºÍÁ¢Òì¡£¡£¡£¡£¡£»£»£»£»£»£»òÐíÓÉÓÚѵÁ·Êý¾ÝÖÐÓÃÁ˸ü¶àµÄÉú²úÁ¦Ïà¹ØÄÚÈÝ£¬£¬£¬