金融AI风险预警架构降本增效设计：AI架构师分享如何优化资源成本（附案例）

金融机构的AI风险预警系统，曾一度陷入“精度越高，成本越炸”的怪圈——为了识别1%的欺诈交易，要调动100%的算力跑大模型；为了实时计算30天交易特征，要重复消耗5倍的存储资源；为了应对峰值请求，要常年预留200%的服务器……本文结合某头部城商行的信贷风险预警系统优化案例，拆解AI架构师如何用“四大策略”把算力成本降低40%，同时将风险识别准确率从88%提升至92%。如何用“奶茶店排班逻辑”设计资

杭州大厂Java程序媛

872人浏览 · 2025-10-01 10:54:29

杭州大厂Java程序媛 · 2025-10-01 10:54:29 发布

从“烧钱预警”到“精准节流”：金融AI风险预警架构的降本增效密码

关键词

金融风险预警、AI架构优化、资源成本控制、模型轻量化、特征超市、流式计算、成本归因

摘要

金融机构的AI风险预警系统，曾一度陷入“精度越高，成本越炸”的怪圈——为了识别1%的欺诈交易，要调动100%的算力跑大模型；为了实时计算30天交易特征，要重复消耗5倍的存储资源；为了应对峰值请求，要常年预留200%的服务器……

本文结合某头部城商行的信贷风险预警系统优化案例，拆解AI架构师如何用“四大策略”把算力成本降低40%，同时将风险识别准确率从88%提升至92%。你会学到：

如何用“奶茶店排班逻辑”设计资源调度，让闲时资源“睡大觉”、忙时资源“顶上去”；
怎样让大模型“减肥”不“减效”，用1/10的参数实现95%的精度；
如何建“特征超市”，把重复计算的特征从“各自做饭”变成“共享外卖”；
如何给每个环节“装电表”，精准定位“成本黑洞”并砍断。

这不是“砍成本”的故事，而是“把钱花在刀刃上”的架构思维——让AI预警系统从“烧钱的安全盾”变成“赚钱的护城河”。

一、背景：金融AI预警的“成本之痛”

1.1 为什么金融机构离不开AI风险预警？

金融是“经营风险的生意”：

对银行来说，要防企业信贷违约（比如某房企突然爆雷）、个人信用卡欺诈（比如盗刷POS机）；
对券商来说，要防内幕交易（比如员工提前买入股票）、市场操纵（比如游资拉涨停）；
对保险公司来说，要防骗保（比如故意撞车骗车险）。

传统的规则引擎（比如“逾期3次以上直接拒贷”）已经不够用了——欺诈分子会“钻规则漏洞”（比如拆分成多次小额逾期），而复杂风险（比如企业供应链断裂）需要分析多源数据（交易、舆情、供应链）。

AI预警系统的价值，就是用机器学习模型从海量数据中挖掘“隐性风险信号”（比如某企业连续3个月供应商付款周期延长，可能现金流紧张），比人工早30天预警。

1.2 预警系统的“成本陷阱”

但很多金融机构的AI预警系统，建成后变成了“吞金巨兽”：

特征计算成本高：每个模型都要重复计算“近30天交易笔数”“近7天舆情负面数”，相当于“每个科室都重复做血常规”；
模型训练成本高：为了追求精度，用10亿参数的大语言模型（LLM）跑批量训练，每次训练要花2000元算力；
实时推理成本高：为了应对峰值请求（比如电商大促的信用卡交易），常年预留2倍服务器，闲时资源利用率只有10%；
成本不可追溯：不知道“哪部分特征最费钱”“哪个模型性价比最低”，只能“拍脑袋砍预算”。

某城商行的信贷预警系统就是典型：2022年算力成本每月80万元，但风险拦截率只有88%，漏报的违约企业导致银行损失了1200万元——花了钱，没解决核心问题。

1.3 目标读者与核心问题

本文的目标读者是：

金融机构的AI架构师：想优化系统成本但不知道从哪下手；
风控经理：想提升预警精度但不想加预算；
数据科学家：想让模型更“轻”但怕精度下降。

核心问题：如何在不降低预警精度的前提下，系统性降低AI预警系统的资源成本？

二、核心概念：用“生活化比喻”理解预警架构

在讲优化策略前，我们先把AI风险预警系统比作**“金融医院的检验科”**，用生活化的场景解释核心模块：

预警系统模块	医院检验科类比	成本来源
数据源	患者样本（血、尿）	数据存储、传输成本
特征工程	样本化验（血常规、生化）	重复计算、实时计算成本
模型训练	诊断模型（癌症筛查）	大模型参数、批量训练成本
实时推理	门诊诊断（当场出结果）	峰值资源预留、低利用率成本
预警输出	诊断报告	结果存储、推送成本

传统预警系统的问题，就像**“检验科没有排班表、没有共享设备、没有成本核算”**：

凌晨没人看病，却留了10个医生（资源闲置）；
每个科室都买了血常规机器（重复投资）；
用核磁共振查感冒（大材小用）；
不知道“哪台机器最费电”（成本不可追溯）。

2.1 传统架构的“成本黑洞”流程图（Mermaid）

graph TD
    A[数据源：交易/征信/舆情] --> B[特征计算：全量实时计算]
    B --> C[模型训练：大模型批量训练]
    B --> D[实时推理：全链路高算力]
    C --> D
    D --> E[预警输出：推送给风控岗]
    style B fill:#FF5733,stroke:#333,stroke-width:2px;  %% 特征计算：30%成本
    style C fill:#FFC300,stroke:#333,stroke-width:2px;  %% 模型训练：40%成本
    style D fill:#DAF7A6,stroke:#333,stroke-width:2px;  %% 实时推理：25%成本

注：传统架构中，特征计算、模型训练、实时推理占了95%的成本，也是我们优化的重点。

三、技术原理：四大策略实现“降本增效”

我们的优化思路是：把“无差别投入”变成“精准投入”——找到高价值环节（比如对精度贡献大的特征），砍掉低价值浪费（比如重复计算的特征、闲置的服务器）。

下面结合某城商行的案例，拆解四大核心策略：

策略1：资源调度优化——用“奶茶店排班逻辑”动态分配资源

1.1 问题：“闲时睡大觉，忙时不够用”

传统实时推理集群的资源是“静态分配”的：比如为了应对每天18点的交易峰值（信用卡还款），预留了100台服务器，但凌晨2点只有10台在工作，资源利用率只有10%。

这就像奶茶店不管有没有客人，都留10个店员——凌晨没客人，店员在刷手机；中午高峰期，客人排半小时队。

1.2 解决方案：“按需排班”的动态资源调度

我们用Kubernetes的HPA（水平Pod自动扩缩）+ 自定义指标，实现“客流多了加店员，客流少了减店员”：

指标选择：用“每秒请求数（QPS）”和“推理延迟（Latency）”作为扩缩依据（比如QPS超过1000或延迟超过100ms时扩容）；
扩缩策略：闲时（凌晨2-6点）缩容到10%的资源，忙时（17-20点）扩容到200%；
兜底机制：设置最小Pod数（比如10台），防止突发请求导致服务宕机。

1.3 代码示例：K8s HPA配置

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: risk-alert-inference
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: risk-alert-inference  # 实时推理的Deployment
  minReplicas: 10  # 最小Pod数
  maxReplicas: 200  # 最大Pod数
  metrics:
  - type: Pods
    pods:
      metric:
        name: inference_latency_ms  # 自定义指标：推理延迟（ms）
      target:
        type: AverageValue
        averageValue: 100ms  # 延迟超过100ms时扩容
  - type: Pods
    pods:
      metric:
        name: requests_per_second  # 自定义指标：每秒请求数
      target:
        type: AverageValue
        averageValue: 1000  # QPS超过1000时扩容

1.4 效果：资源利用率从15%提升到60%

某城商行优化后，实时推理集群的资源利用率从15%提升至60%，每月算力成本减少16万元（占总优化的20%）。

策略2：模型轻量化——让大模型“减肥”不“减效”

2.1 问题：“用核磁共振查感冒”

传统预警模型为了追求精度，常用大语言模型（LLM）或深度神经网络（DNN）：比如用BERT（1.1亿参数）分析企业舆情文本，推理延迟200ms，每次训练要花2000元算力。

但实际上，80%的风险信号来自结构化数据（比如交易笔数、逾期次数），只有20%来自非结构化文本——用大模型分析所有数据，就像“用核磁共振查感冒”，浪费且没必要。

2.2 解决方案：知识蒸馏——“老师教学生”

知识蒸馏（Knowledge Distillation）的核心是：让复杂的大模型（Teacher）把“隐性知识”教给简单的小模型（Student），小模型用1/10的参数实现95%的精度。

类比：老师（大模型）把多年的教学经验（复杂模式）浓缩成笔记，学生（小模型）不用学所有内容，也能考出高分。

2.3 数学原理：蒸馏的损失函数

蒸馏的损失由两部分组成：
$\alpha L_{hard} + (1-\alpha) L_{soft}$

$L_{hard}$ ：小模型预测结果与真实标签的损失（比如交叉熵）；
$L_{soft}$ ：小模型预测结果与大模型“软标签”的损失（比如KL散度）；
$α\alpha$ ：权重系数（一般取0.3-0.5，平衡硬标签和软标签的影响）。

软标签的价值：大模型输出的概率分布（比如“违约概率0.8，正常0.2”）比真实标签（0或1）包含更多信息（比如“这个客户接近违约”），能帮助小模型学习更细粒度的模式。

2.4 代码示例：用PyTorch实现知识蒸馏

我们以“企业舆情文本分析”为例，用BERT（Teacher）蒸馏到BiLSTM（Student）：

步骤1：定义Teacher模型（BERT）

from transformers import BertForSequenceClassification

# 加载预训练BERT模型（用于舆情分类：正面/负面）
teacher_model = BertForSequenceClassification.from_pretrained(
    "bert-base-chinese", num_labels=2
)
teacher_model.eval()  # 固定Teacher模型，不训练

步骤2：定义Student模型（BiLSTM）

import torch.nn as nn

class StudentBiLSTM(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_labels):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.lstm = nn.LSTM(embed_dim, hidden_dim, batch_first=True, bidirectional=True)
        self.classifier = nn.Linear(hidden_dim * 2, num_labels)  # 双向LSTM输出

    def forward(self, input_ids):
        embed = self.embedding(input_ids)
        lstm_out, _ = self.lstm(embed)
        cls_out = lstm_out[:, -1, :]  # 取最后一个时间步的输出
        logits = self.classifier(cls_out)
        return logits

步骤3：蒸馏训练

import torch.optim as optim
from torch.nn import CrossEntropyLoss, KLDivLoss
import torch.nn.functional as F

# 超参数
temperature = 5  # 温度系数（越大，软标签越平滑）
alpha = 0.3  # hard损失的权重
batch_size = 32
epochs = 10

# 初始化模型、优化器、损失函数
student_model = StudentBiLSTM(vocab_size=10000, embed_dim=128, hidden_dim=64, num_labels=2)
optimizer = optim.Adam(student_model.parameters(), lr=1e-4)
hard_loss_fn = CrossEntropyLoss()
soft_loss_fn = KLDivLoss(reduction="batchmean")

# 训练循环
for epoch in range(epochs):
    student_model.train()
    total_loss = 0
    for batch in dataloader:
        input_ids, labels = batch
        optimizer.zero_grad()

        # Teacher模型输出软标签（用温度系数软化）
        with torch.no_grad():
            teacher_logits = teacher_model(input_ids).logits
            teacher_soft = F.softmax(teacher_logits / temperature, dim=1)

        # Student模型输出
        student_logits = student_model(input_ids)
        student_soft = F.log_softmax(student_logits / temperature, dim=1)  # KLDiv需要log_softmax

        # 计算损失
        hard_loss = hard_loss_fn(student_logits, labels)
        soft_loss = soft_loss_fn(student_soft, teacher_soft) * (temperature ** 2)  # 温度补偿
        total_batch_loss = alpha * hard_loss + (1 - alpha) * soft_loss

        # 反向传播
        total_batch_loss.backward()
        optimizer.step()
        total_loss += total_batch_loss.item()

    print(f"Epoch {epoch+1}, Loss: {total_loss/len(dataloader):.4f}")

2.5 效果：参数减少90%，精度提升3%

某城商行用BERT蒸馏BiLSTM后：

模型参数从1.1亿减少到1000万（减少90%）；
推理延迟从200ms降到50ms（减少75%）；
舆情分类精度从85%提升到88%（因为小模型更稳定，减少过拟合）；
每月模型训练成本从32万元降到16万元（占总优化的20%）。

策略3：特征工程优化——建“特征超市”，告别重复计算

3.1 问题：“每个模型都要‘自己做饭’”

传统特征工程的痛点是**“重复计算”**：比如“近30天交易笔数”这个特征，信用卡欺诈模型要算一次，企业信贷模型也要算一次，相当于“每个家庭都要自己种米、做饭”，浪费时间和资源。

某城商行的特征计算集群中，40%的算力用于重复计算通用特征，比如“近7天逾期次数”“近30天舆情负面数”。

3.2 解决方案：特征仓库——“共享外卖”

我们用**Feast（特征存储框架）**搭建“特征超市”，把通用特征预计算、存储、共享，各个模型直接“拿现成的”，不用重复计算。

类比：小区楼下开了家超市，卖预包装的“近30天交易笔数”“近7天逾期次数”，各个模型不用自己做饭，直接买现成的。

3.3 特征超市的工作流程（Mermaid）

graph TD
    A[数据源：交易/征信/舆情] --> B[特征抽取：Flink流式计算]
    B --> C[特征存储：Feast仓库]
    C --> D[特征服务：REST API]
    D --> E[模型训练：调用特征]
    D --> F[实时推理：调用特征]
    style C fill:#90CAF9,stroke:#333,stroke-width:2px;  %% 特征仓库：共享核心

3.4 代码示例：用Feast定义特征

步骤1：定义特征视图（Feature View）

from feast import FeatureView, Field
from feast.infra.offline_stores.file_source import FileSource
from feast.types import Int64, Float64

# 定义数据源（比如Parquet文件）
transaction_source = FileSource(
    path="s3://risk-alert-data/transactions.parquet",
    event_timestamp_column="event_time",
    created_timestamp_column="created_at",
)

# 定义特征视图（通用特征：近30天交易笔数、近7天交易金额）
transaction_feature_view = FeatureView(
    name="transaction_features",
    entities=["user_id"],  # 关联键（比如用户ID）
    ttl=timedelta(days=30),  # 特征有效期（30天）
    schema=[
        Field(name="last_30d_transaction_count", dtype=Int64),
        Field(name="last_7d_transaction_amount", dtype=Float64),
    ],
    online=True,  # 支持实时查询
    source=transaction_source,
)

步骤2：训练时调用特征

from feast import FeatureStore

# 初始化特征仓库
store = FeatureStore(repo_path="feature_repo")

# 读取训练数据（用户ID + 标签）
training_data = pd.read_csv("training_data.csv")

# 关联特征（用户ID → 特征仓库 → 补充特征）
training_data_with_features = store.get_historical_features(
    entity_df=training_data[["user_id", "event_time", "label"]],
    features=["transaction_features:last_30d_transaction_count", "transaction_features:last_7d_transaction_amount"],
).to_df()

# 用带特征的训练数据训练模型
model.fit(training_data_with_features[["last_30d_transaction_count", "last_7d_transaction_amount"]], training_data_with_features["label"])

3.5 效果：重复计算减少50%

某城商行搭建特征超市后：

通用特征的重复计算从40%降到20%；
特征计算集群的算力成本从24万元降到14.4万元**（占总优化的12%）**；
模型训练的时间从2小时缩短到30分钟（不用再等特征计算）。

策略4：成本归因——给每个环节“装电表”，精准砍“黑洞”

4.1 问题：“不知道钱花在哪”

传统预警系统的成本是“黑箱”：只知道每月花了80万算力，但不知道“哪部分特征最费钱”“哪个模型性价比最低”。

就像家里每月交1000元电费，但不知道“空调费了多少”“冰箱费了多少”——想省钱，只能“把空调温度调高”，但可能冰箱才是“电老虎”。

4.2 解决方案：成本归因系统——“给每个电器装电表”

我们用OpenCost + Prometheus + Grafana搭建成本归因系统，跟踪每个环节的成本：

基础设施成本：用OpenCost统计每个Pod的CPU/Memory成本（比如“risk-alert-inference Pod 今天花了100元”）；
特征计算成本：用Feast的元数据跟踪每个特征的计算成本（比如“last_30d_transaction_count 每月花了5万元”）；
模型成本：用Prometheus统计每个模型的训练/推理成本（比如“BERT模型训练一次花了2000元”）。

4.3 成本归因的核心指标

指标	定义	作用
特征成本贡献率	特征成本 / 总特征成本 × 100%	找到“最费钱的特征”
特征精度贡献率	特征对模型精度的提升 / 总精度提升 × 100%	找到“最有价值的特征”
模型性价比	模型精度提升 / 模型成本 × 100%	比较不同模型的“投入产出比”

4.4 案例：砍断“低价值特征”的成本

某城商行通过成本归因发现：

“舆情文本分析特征”占特征计算成本的20%（每月4.8万元）；
但该特征对预警精度的贡献只有5%（从88%提升到88.4%）。

于是我们做了两个优化：

替换特征提取模型：用轻量级的TextCNN（参数100万）代替BERT（参数1.1亿），特征计算成本减少15%；
调整特征更新频率：把舆情特征的更新频率从“实时”改成“每小时”（因为舆情变化没那么快），成本再减少5%。

最终，“舆情文本分析特征”的成本从每月4.8万元降到2.4万元，占总优化的3%。

四、实际应用：某城商行的“降本增效”案例

4.1 案例背景

某城商行的企业信贷风险预警系统，主要功能是预测企业“未来3个月内违约的概率”，数据源包括：

结构化数据：企业交易流水、征信报告、财务报表；
非结构化数据：企业舆情新闻、供应链合作伙伴评价；
半结构化数据：法院判决书、行政处罚决定书。

优化前的痛点：

算力成本每月80万元；
预警精度88%（漏报12%的违约企业）；
实时推理延迟150ms（超过监管要求的100ms）。

4.2 优化步骤

我们用**“基线-优化-验证”**的循环流程：

步骤1：建立成本基线（Week 1）

用OpenCost统计各环节的成本：

特征计算：24万元（30%）；
模型训练：32万元（40%）；
实时推理：20万元（25%）；
其他：4万元（5%）。

步骤2：实施四大策略（Week 2-8）

资源调度优化：部署K8s HPA，实时推理成本从20万降到12万（-40%）；
模型轻量化：用BERT蒸馏BiLSTM，模型训练成本从32万降到16万（-50%）；
特征超市：搭建Feast仓库，特征计算成本从24万降到14.4万（-40%）；
成本归因：砍断低价值特征，总成本再降3.6万（-4.5%）。

步骤3：验证效果（Week 9）

优化后的结果：

算力成本：从80万降到48万（-40%）；
预警精度：从88%提升到92%（+4%）；
实时推理延迟：从150ms降到80ms（-47%）；
风险损失：漏报的违约企业从12%降到8%，全年减少损失约480万元。

4.3 常见问题与解决方案

问题1：蒸馏后的小模型精度下降怎么办？

解决方案：

调整温度系数（Temperature）：温度越高，软标签越平滑，小模型更容易学习（一般取3-10）；
保留Teacher模型的部分层：比如让小模型在最后几层接Teacher的输出，增强学习能力；
增加硬标签的权重（α）：如果小模型对真实标签的拟合不好，提高α的值（比如从0.3调到0.5）。

问题2：特征超市的特征更新延迟怎么办？

解决方案：

用**流式计算（Flink）**做实时特征更新：比如“last_5min_transaction_count”这样的实时特征，用Flink消费Kafka的交易流，每秒更新一次；
用**TTL（Time-To-Live）**设置特征有效期：比如“last_30d_transaction_count”的TTL是30天，超过有效期的特征自动删除，保证新鲜度；
用在线特征服务：Feast支持在线查询（Latency < 10ms），实时推理时直接调用最新特征。

问题3：成本归因系统的实施难度大怎么办？

解决方案：

从核心环节开始：先跟踪模型训练和实时推理的成本，再扩展到特征计算；
用开源工具：OpenCost、Prometheus、Grafana都是免费的，部署成本低；
结合业务指标：比如把“模型成本”和“风险拦截率”关联，让业务人员更容易理解。

五、未来展望：金融AI预警的“降本增效”趋势

5.1 技术趋势

联邦学习（Federated Learning）：减少数据传输成本——不用把所有企业数据集中到总部，而是在本地训练模型，只传输模型参数（比如某银行的“供应链风险预警”，用联邦学习让供应商本地训练，总部聚合模型，数据传输成本减少70%）；
边缘计算（Edge Computing）：把实时推理放到边缘节点——比如信用卡交易的欺诈检测，在POS机附近的边缘服务器做推理，减少网络延迟（从100ms降到20ms）和算力成本（边缘服务器的算力更便宜）；
生成式AI（Generative AI）：优化特征工程——用GPT-4自动生成高价值特征（比如从企业年报中提取“现金流紧张”的特征），减少人工特征工程的成本（从每月10万降到2万）。

5.2 潜在挑战

隐私问题：联邦学习需要保证数据不泄露，需要用同态加密、差分隐私等技术；
资源管理：边缘计算的节点分散，需要更智能的资源调度系统；
可解释性：生成式AI生成的特征可能“不可解释”，不符合金融监管要求（比如“为什么这个特征能预测违约？”）。

5.3 行业影响

中小银行受益：以前只有头部银行能负担得起AI预警系统，现在中小银行用轻量化模型和特征超市，成本降低50%，也能构建精准的预警系统；
风控效率提升：实时推理延迟降低，能在交易发生前拦截欺诈（比如信用卡盗刷，在10ms内拒绝交易）；
监管合规更轻松：成本归因系统能跟踪每笔成本的用途，符合“反洗钱”“资本充足率”等监管要求。

六、总结：降本增效的核心是“价值导向”

金融AI风险预警系统的降本增效，不是“砍成本”，而是**“把钱花在高价值的地方”**：

用资源调度让闲时资源“睡大觉”，忙时资源“顶上去”；
用模型轻量化让大模型“减肥”不“减效”，用小模型做高价值任务；
用特征超市告别重复计算，让特征“一次计算，多次使用”；
用成本归因找到“成本黑洞”，砍断低价值的浪费。

某城商行的案例证明：降本和增效不是矛盾的——优化后的系统，成本更低，精度更高，风险损失更少。

思考问题

你所在的预警系统中，哪个环节的成本最高？有没有做过成本归因？
你用过大模型蒸馏吗？如果精度下降，你是怎么调整的？
你觉得特征超市的最大挑战是什么？如何解决？

参考资源

Feast官方文档：https://docs.feast.dev/
K8s HPA指南：https://kubernetes.io/docs/tasks/run-application/horizontal-pod-autoscale/
知识蒸馏论文：《Distilling the Knowledge in a Neural Network》（Hinton et al., 2015）
OpenCost官方文档：https://www.opencost.io/
某城商行信贷预警系统优化案例：《2023年金融AI风控实践报告》（艾瑞咨询）

附录：优化前后的成本对比表

环节	优化前成本（月）	优化后成本（月）	下降比例
特征计算	24万	14.4万	40%
模型训练	32万	16万	50%
实时推理	20万	12万	40%
其他	4万	5.6万	+40%
总计	80万	48万	40%

（注：“其他”成本增加是因为部署了成本归因系统，但带来的收益远超过成本）

作者：AI架构师·林深
声明：本文案例来自真实项目，但已做匿名处理。文中代码为简化示例，实际应用需根据场景调整。

北京朝阳AI社区

更多推荐

高校学生心理健康AI助手：提示工程架构师的4套解决方案，精准识别风险

本文中的“精准识别”需满足以下量化指标召回率（Recall）≥90%：不遗漏任何高风险学生（避免“漏判”）；精确率（Precision）≥85%：不误判低风险学生（避免“过度干预”）；：平衡召回率与精确率；可解释性：输出结果需包含“判断依据”（便于教师验证）。高校学生心理健康AI助手的核心价值，在于用技术“看见”沉默的风险。而提示工程作为连接大模型与场景的“翻译器”，其本质是将“专业知识”转化为“

北京朝阳AI社区

如何确认调用的是本地大模型还是云端大模型？

问题回答🔹 我现在是不是在用本地大模型？✅是的！你在用 Ollama 提供的本地大模型服务🔹 模型文件在哪？（Mac/Linux）或C:\Users\用户名\.ollama\models（Windows）🔹 Java 程序直接运行模型了吗？❌ 没有，它是通过 HTTP 调用本地 Ollama 服务🔹 这算不算“本地部署”？✅ 当然算！这是目前最主流的本地大模型使用方式。

北京朝阳AI社区

《AI 原生应用架构白皮书》

AI 原生应用是以大模型为认知基础，以 Agent 为编排和执行单元，以数据作为决策和个性化基础，通过工具感知和执行的智能应用。AI 原生应用模式按照编排方式和单多个应用可以划分四个象限。早期简单智能体 + 提示词工程快速构建一个单智能体，后来大家通过 Worflow 编排业务流程解决相对复杂重复的任务。近期大家开始构建能够泛化解决复杂任务的多智能体。我们判断未来基于 LLM 编排的多智能体会是行