AI 摘要
>> 加拿大初创公司Taalas推出HC1芯片,通过将AI模型直接‘刻’在芯片上,采用硬连线技术,实现AI推理速度达英伟达B200的48倍,生产成本仅为传统方案的1/20,单芯片TPS达16,960,集群性能提升60倍,功耗低至2.5kW。该技术消除了数据搬运瓶颈,将计算与存储融合,显著提升效率。尽管具备高性能和低成本优势,但存在模型灵活性差、需为每个版本单独流片等局限,未来计划推出支持更大模型的HC2芯片,推动AI芯片专用化发展。
最近,AI 芯片圈出了件大事。
加拿大多伦多有家叫 Taalas(塔拉斯)的初创公司,刚拿了 1.69 亿美元 融资,还甩出了一组亮眼的数据:
他们用自家芯片跑 AI 模型,速度是英伟达最新 B200 的 48 倍 ,生产成本却只有传统方案的 1/20 。
怎么做到的?
说白了就四个字:把 AI 模型直接”刻”在芯片上 。
图 1: Taalas 公司发布的 HC1 芯片
硬连线技术:把 AI 模型”印刷”在芯片上
要理解 Taalas 的创新,得先搞明白传统 GPU 是怎么工作的。
传统 GPU 像”通用计算器” ,什么都能算,但什么都要临时算。每次运行 AI 模型,都得从内存里读取数据,计算完再写回去。这过程中,数据搬运就花了不少时间。
Taalas 的芯片像”专用计算器” ,它把特定 AI 模型的电路直接固化在硅片上。好比把微积分的运算逻辑直接做成硬件电路,拿来就能用,不用临时编程。
用一个更形象的类比:
GPU 像是手写 ,灵活但慢,每次都要一笔一划写; Taalas 像是印刷 ,制版后批量生产极快,但改内容要重新制版。
技术上是怎么实现的?
Taalas 采用了一种叫”硬连线”(Hard-wiring)的设计:
- 先完成约 100 层结构 、近乎完整的芯片制造
- 再在其中两层金属层 上做最终定制化
- 模型权重固化在芯片的 Mask ROM 和 SRAM 中
整个过程只需要 2 个月 ,而英伟达生产一块 Blackwell 芯片得花 6 个月 。
图 2: 技术概念图
性能对比:数据说明一切
光说原理你可能没感觉,直接看测试数据。
单芯片性能对比
在运行 Llama 3.1 8B 模型时,各家的 TPS(每秒生成 Token 数)对比:
| 产品 | TPS | 相对 Taalas |
|---|---|---|
| Taalas HC1 | 16,960 | - |
| Cerebras | 1,981 | 8.6 倍 |
| Sambanova | 932 | 18.2 倍 |
| Groq | 594 | 28.6 倍 |
| Nvidia B200 | 353 | 48 倍 |
| Nvidia H200 | 230 | 73.7 倍 |
数据来源:93913
看到差距了吗?
Taalas HC1 的 16,960 TPS ,是英伟达 B200(353 TPS)的 48 倍 ,是 H200(230 TPS)的 73.7 倍 。
成本对比
性能猛,成本还低:
- 生产成本 :传统方案的 1/20 (降低 95%)
- 推理成本 :7.6 美分/百万 token ,不到同等吞吐量 GPU 方案的一半
- 生产周期 :2 个月 vs 英伟达 6 个月
集群性能
如果用 30 颗芯片组成集群,那性能更夸张:
- 吞吐速度 :12,000 TPS/User (每用户每秒 12000 个 token)
- 对比 GPU :约 60 倍 (当前 GPU 技术约 200 TPS/User)
- 延迟 :近乎零延迟
- 服务器功耗 :仅 2.5kW
这个成绩,是在运行 DeepSeek R1 模型时创下的。
为什么能这么快?
说白了就一个原因:消除了数据搬运的瓶颈 。
传统架构里,计算单元和存储单元是分开的。数据得在这两者之间来回搬运,就像在一条拥堵的公路上开车,大部分时间都花在了路上。
Taalas 这做法,相当于把计算和存储融合在一起 ,数据不用”跑路”了,直接在原地计算。
再用一个类比:
传统 GPU 像是普通公路 ,有红绿灯、有交叉口,车速提不起来;
Taalas 像是专用高速公路 ,没有红绿灯,一脚油门到底。
具体来说:
- 模型权重直接固化在硅片上,不用从内存读取
- 大量使用高速 SRAM 内存,数据访问极快
- 专为特定模型优化,没有通用芯片那些”额外开销”
所以它能快几十倍。
图 3: Taalas HC1 与竞品 TPS 对比
影响与展望
Taalas 的出现,对 AI 芯片行业意味着啥?
好处很明显 :
- 证明了”硬连线”这条路走得通
- 给 AI 推理提供了个高性能、低成本的新选择
- 说不定能逼着英伟达这些巨头加快创新
但局限性也得看到 :
- 灵活性不够 :单芯片只支持 80 亿参数模型,模型升级得重新流片(重新制造芯片)
- 市场买不买账 :客户得为每个模型版本单独买专用硬件,这笔账得算清楚
- 竞争不轻松 :Cerebras、Groq、D-Matrix 这些初创企业都在搞类似的东西,英伟达也不是吃素的
Taalas 计划在 2026 年上半年推出能支持中等规模的大模型的处理器,未来还要发布支持 200 亿参数的 HC2。
AI 芯片这场”专用化”的好戏,还在后头 。