这家初创公司把模型"刻"在硅片上，速度快 48 倍

AI 摘要

>> 加拿大初创公司Taalas推出HC1芯片，通过将AI模型直接‘刻’在芯片上，采用硬连线技术，实现AI推理速度达英伟达B200的48倍，生产成本仅为传统方案的1/20，单芯片TPS达16,960，集群性能提升60倍，功耗低至2.5kW。该技术消除了数据搬运瓶颈，将计算与存储融合，显著提升效率。尽管具备高性能和低成本优势，但存在模型灵活性差、需为每个版本单独流片等局限，未来计划推出支持更大模型的HC2芯片，推动AI芯片专用化发展。

最近，AI 芯片圈出了件大事。

加拿大多伦多有家叫 Taalas（塔拉斯）的初创公司，刚拿了 1.69 亿美元 融资，还甩出了一组亮眼的数据：

他们用自家芯片跑 AI 模型，速度是英伟达最新 B200 的 48 倍 ，生产成本却只有传统方案的 1/20 。

怎么做到的？

说白了就四个字：把 AI 模型直接”刻”在芯片上 。

图 1: Taalas 公司发布的 HC1 芯片

硬连线技术：把 AI 模型”印刷”在芯片上

要理解 Taalas 的创新，得先搞明白传统 GPU 是怎么工作的。

传统 GPU 像”通用计算器” ，什么都能算，但什么都要临时算。每次运行 AI 模型，都得从内存里读取数据，计算完再写回去。这过程中，数据搬运就花了不少时间。

Taalas 的芯片像”专用计算器” ，它把特定 AI 模型的电路直接固化在硅片上。好比把微积分的运算逻辑直接做成硬件电路，拿来就能用，不用临时编程。

用一个更形象的类比：

GPU 像是手写 ，灵活但慢，每次都要一笔一划写； Taalas 像是印刷 ，制版后批量生产极快，但改内容要重新制版。

技术上是怎么实现的？

Taalas 采用了一种叫”硬连线”（Hard-wiring）的设计：

先完成约 100 层结构 、近乎完整的芯片制造
再在其中两层金属层 上做最终定制化
模型权重固化在芯片的 Mask ROM 和 SRAM 中

整个过程只需要 2 个月 ，而英伟达生产一块 Blackwell 芯片得花 6 个月 。

图 2: 技术概念图

性能对比：数据说明一切

光说原理你可能没感觉，直接看测试数据。

单芯片性能对比

在运行 Llama 3.1 8B 模型时，各家的 TPS（每秒生成 Token 数）对比：

产品	TPS	相对 Taalas
Taalas HC1	16,960	-
Cerebras	1,981	8.6 倍
Sambanova	932	18.2 倍
Groq	594	28.6 倍
Nvidia B200	353	48 倍
Nvidia H200	230	73.7 倍

数据来源：93913

看到差距了吗？

Taalas HC1 的 16,960 TPS ，是英伟达 B200（353 TPS）的 48 倍 ，是 H200（230 TPS）的 73.7 倍 。

成本对比

性能猛，成本还低：

生产成本 ：传统方案的 1/20 （降低 95%）
推理成本 ：7.6 美分/百万 token ，不到同等吞吐量 GPU 方案的一半
生产周期 ：2 个月 vs 英伟达 6 个月

集群性能

如果用 30 颗芯片组成集群，那性能更夸张：

吞吐速度 ：12,000 TPS/User （每用户每秒 12000 个 token）
对比 GPU ：约 60 倍 （当前 GPU 技术约 200 TPS/User）
延迟：近乎零延迟
服务器功耗 ：仅 2.5kW

这个成绩，是在运行 DeepSeek R1 模型时创下的。

为什么能这么快？

说白了就一个原因：消除了数据搬运的瓶颈 。

传统架构里，计算单元和存储单元是分开的。数据得在这两者之间来回搬运，就像在一条拥堵的公路上开车，大部分时间都花在了路上。

Taalas 这做法，相当于把计算和存储融合在一起 ，数据不用”跑路”了，直接在原地计算。

再用一个类比：

传统 GPU 像是普通公路 ，有红绿灯、有交叉口，车速提不起来；
Taalas 像是专用高速公路 ，没有红绿灯，一脚油门到底。

具体来说：

模型权重直接固化在硅片上，不用从内存读取
大量使用高速 SRAM 内存，数据访问极快
专为特定模型优化，没有通用芯片那些”额外开销”

所以它能快几十倍。

图 3: Taalas HC1 与竞品 TPS 对比

影响与展望

Taalas 的出现，对 AI 芯片行业意味着啥？

好处很明显 ：

证明了”硬连线”这条路走得通
给 AI 推理提供了个高性能、低成本的新选择
说不定能逼着英伟达这些巨头加快创新

但局限性也得看到 ：

灵活性不够 ：单芯片只支持 80 亿参数模型，模型升级得重新流片（重新制造芯片）
市场买不买账 ：客户得为每个模型版本单独买专用硬件，这笔账得算清楚
竞争不轻松 ：Cerebras、Groq、D-Matrix 这些初创企业都在搞类似的东西，英伟达也不是吃素的

Taalas 计划在 2026 年上半年推出能支持中等规模的大模型的处理器，未来还要发布支持 200 亿参数的 HC2。

AI 芯片这场”专用化”的好戏，还在后头。

AI 摘要

硬连线技术：把 AI 模型”印刷”在芯片上

性能对比：数据说明一切

单芯片性能对比

成本对比

集群性能

为什么能这么快？

影响与展望

内容导航

推荐阅读

ChatGPT 又双叒发布新版本了—ChatGPT5.4

龙虾很忙：从Clawdbot到OpenClaw，这只“AI爪子”到底是什么？

我用电脑跑AI生图大模型——记折腾ComfyUI的全过程

你的手机也能跑“视觉大模型”？苹果发布的FastVLM到底怎么样？

Chrome原生 AI 来了：Gemini 深度入驻 Chrome