单芯片最高2400TPS性能突破 (单芯片处理器)

分类:互联网资讯 - 时间:2025-08-29 - 浏览:
单

在第四届828B2B企业节开幕式上,华为云宣布其Tokens服务正式接入CloudMatrix384超节点,并基于xDeepServe架构实现了显著的性能突破。单芯片最高可达到2400TPS的吞吐能力和50ms的TPOT时延水平,这一表现不仅远超行业当前标准,也突显了华为在ai算力基础设施领域的持续创新能力。这一进展的背景是中国AI应用规模迅速扩张所带来的算力需求激增——数据显示,从2024年初到同年6月,日均Token消耗量由1000亿猛增至30万亿,增长超300倍,对底层算力支撑提出了极高要求。

为应对这一挑战,华为云于今年3月推出了基于MaaS(model-as-a-Service)的Tokens服务,提供在线、进线、离线及尊享等多种服务规格,以适应不同应用场景在性能和响应延迟方面的差异化需求。此次接入CloudMatrix384超节点,标志着该服务在架构层面实现进一步升级。借助xDeepServe分布式推理框架,吞吐量从年初的1920TPS提升至2400TPS,同时保持极低的50ms时延,体现出华为在全栈技术整合上的系统化能力。

华为将大算力的构建视为一个覆盖硬件、软件、通信与存储的全链路创新过程。CloudMatrix384作为新一代超节点,通过重新设计计算架构突破性能瓶颈;CANN作为昇腾硬件使能层,优化了算子执行与通信策略;EMS弹性内存存储技术则有效打破“内存墙”,以存储增强计算效能;而xDeepServe作为原生推理框架,采用Transformerless极致分离架构,将MoE类大模型拆解为Attention、FFN和Expert三个可独立伸缩的微模块,实现在多个NPU间的并行处理与动态拼合,最终通过XCCL微秒级通信库与FlowServe自研引擎完成高速流水线集成。

特别值得关注的是xDeepServe在架构层面的创新。它通过模块化拆解与内存语义通信,显著提升单卡吞吐性能,从600 tokens/s跃升至2400 tokens/s。XCCL通信库充分发挥UB互联架构的带宽与低延迟优势,为模型组件的彻底分离奠定基础。而FlowServe通过去中心化架构将超节点划分为自治的DP小组,每个小组具备完整的token化、执行与缓存能力,从而实现高并发下的无阻塞推理。

华为云

目前,华为云MaaS服务已兼容包括DeepSeek、Kimi、Qwen、PanGu等主流大模型及Dify、扣子等agent平台,显示出其在生态支持方面的广泛性。未来,xDeepServe计划进一步实现Attention、MoE与Decode组件的全数据流化,并将该架构扩展至多超节点协作,以持续提升系统吞吐与资源利用效率,最终实现“芯片无排队、推理无拥堵”的愿景。这一系列技术举措,不仅强化了华为云在激烈竞争中的领先地位,也为AI大规模落地提供了坚实可靠的算力底座。

相关标签: 时延tps华为云单芯片知名企业华为开发者大会

本文地址:https://www.dhslw.com/article/279.html

发表评论
相关内容相关内容
17发布会正式官宣 苹果iPhone 邀请函暗藏玄机 设计细节引发全网热议 (2017发布会)

苹果公司于北京时间9月10日凌晨1点正式宣布举行iPhone17系列发布会,中文主题定为,前方超燃,,预示着此次发布将涵盖多品类新品,除手机外,AirPods、AppleWatch及AppleTV等产品线亦有望迎来更新,发布会邀请函设计颇具深意,整体呈现热成像风格的苹果Logo,橙蓝双色交织流动,暗合新品核心升级方向,官网交互设计还隐...。

周一重磅!英伟达宣布重大突破 AI芯片技术迎来全新升级 (周一英语读)

本文围绕英伟达即将发布的新一代人工智能芯片及其对市场的影响展开,内容涵盖产品发布预告、行业背景、市场情绪及财报预期等多个维度,整体结构清晰,信息量较为丰富,但部分表述略显冗余,逻辑层次可进一步优化,从技术层面来看,文章首先介绍了英伟达即将推出的,机器人新大脑,芯片,并借助社交媒体预告及高管的公开表态强化了这一产品的重要性,值得注意的是...。

比亚迪官方提醒 极端天气条件下不建议使用辅助驾驶功能 (比亚迪官方提供的行车记录仪APP)

针对比亚迪发布的天神之眼智能辅助驾驶行车问答第二期内容,以下是对其技术细节及用户疑问的详细分析说明,关于极端天气及传感器干扰情况下的系统使用问题,比亚迪明确指出,在暴雨、积雪、浓雾或传感器受遮挡等恶劣条件下,系统可靠性可能显著下降,这反映了当前辅助驾驶技术的普遍局限性,即依赖摄像头与雷达的环境感知能力易受外界干扰,厂商此类说明旨在强调...。

抖音电商持续强化平台治理 今年以来已成功拦截劣质商品56万件 (抖音电商最新规则)

近期,抖音电商平台发布的数据显示,其在商品质量管控与消费者权益保护方面取得了显著成效,今年以来,平台累计拦截劣质商品达56万件,有效遏制了低质商品的流通,体现了平台对商品准入环节的严格管理,同时,针对消费者普遍关注的虚假营销问题,平台已组织多轮专项行动,处置违规直播间超过28万个,清退违规达人超2万名,显示出其在内容生态治理方面的积极...。

谁最厉害 全国哪里最牛 100秒读懂最新院士候选人名单 (谁是全国最厉害的人)

近日,中国科学院与中国工程院公布了2025年院士增选有效候选人名单,其中中国科学院有效候选人共639人,中国工程院则为660人,总计1299人进入本轮评选,从地域分布来看,北京市以435名候选人高居榜首,显示出其在科研资源和人才集聚方面的显著优势;上海市以121人位列第二,江苏省则以94人排名第三,反映出长三角地区在高端科研人才方面的...。

中国算力平台实现全面贯通 智算规模预计今年增长超40% (中国算力平台山西)

近期,中国算力平台建设取得显著突破,在2025中国算力大会上,随着贯通仪式的举行,山西、辽宁、上海、江苏、浙江、山东、河南、青海、宁夏、新疆等10个省区市的分平台正式接入国家级算力平台,标志着平台在资源整合、主体协同、生态构建和应用场景等方面实现全面贯通,作为国家级综合性服务平台,中国算力平台集供给、需求和服务于一体,致力于提升不同系...。

中大自主研发6000米级深海无人遥控潜水器成功在南海完成首次深海试验 (中山大学研发)

近日,南海中沙海域传来一则重大科研进展,搭载于,中山大学号,海洋综合科考实习船上的6000米级深海无人遥控潜水器,ROV,海琴号,圆满完成首次深海试验,标志着中山大学正式跻身国内少数具备6000米级深海ROV科考能力的单位行列,此次试验不仅全面验证了,海琴号,整机系统的功能与核心性能指标,也进一步提升了我国在深海探测领域的装备水平与...。

探索版头显正式上线 vivo Vision 带来多款MR专属沉浸式内容

vivo智慧终端产品总经理洪沂于8月24日发文,围绕vivoVision探索版MR头显的生态布局、内容建设及未来规划进行了系统性阐述,此次发布不仅展示了vivo在混合现实,MR,领域的技术投入与阶段性成果,也体现出其在构建软硬件一体化生态方面的战略思路,在内容生态方面,vivo已与多家合作方共同开发了多款MR专属应用,目前用户可在指定...。

多核效率显著提升13% AMD 单核性能持平5500 5500X3D首发Geekbench跑分曝光 R5 (多核性能)

近日,AMD锐龙55500X3D处理器在Geekbench测试平台上的表现引发行业关注,作为一款仅面向拉美市场推出的AM4平台Zen3架构产品,其测试数据为我们理解其技术特性与市场定位提供了重要参考,根据华硕测试平台在Geekbench上的运行结果,该处理器在Flatpak虚拟化环境中,配备32GB内存,单核得分1936,多核得分92...。

随机推荐随机推荐
母线槽

扬州市艾加电气有限公司是母线槽,母线,滑触线,滑线,电缆滑线,拖链等移动馈产品的生产和销售,欢迎来电咨询,陈经理手机:13813103001

即梦AI

即梦AI一站式智能创作平台,即刻造梦。提供AI绘画和AIGC视频创作体验,拥有激发无限创作灵感的社区。让即梦AI开启您的智能创作之旅,探索梦境实现的无限可能!

Xmind思维导图

暂无描述...

缤纷彩虹天地

彩虹博客(blog.cccyun.cn)成立于2014年10月18日,搭建在新浪SAE云计算平台。本站目前作为我的原创程序首发站,同时致力于互联网资源的共享,包括程序源码、各种教程、软件、影视、音乐、电子书、新闻等。对于一些比较不错的有价值的文章,本博客也会适当转载分享。

宝可梦图鉴百科

宝可梦图鉴百科提供全世代宝可梦信息查询,包含属性相克、进化链、技能与特性数据,是宝可梦爱好者必备工具。

盒子导航

盒子导航

山西三维云推科技有限公司

小程序获客对于小程序的长期发展至关重要,可以帮助企业扩大用户基础、提高转化率、提升品牌形象和实现精准营销,降低获客成本。

智能自动驾驶

福瑞泰克是全球领先的汽车智能自动驾驶解决方案服务商,拥有高级无人驾驶辅助系统(ADAS)领域核心的知识产权,携手客户与合作伙伴联合创新,为中国汽车工业提供“安全、真实、有效”的智能驾驶解决方案,推动中国智能驾驶技术的发展。

全能客户CRM

暂无描述...