Qwen私有化推理降本实战：5步提升显存利用率至89%

dgqvhtlwq472235338

428人浏览 · 2026-06-25 12:29:16

dgqvhtlwq472235338 · 2026-06-25 12:29:16 发布

1. 项目概述：这不是“调用大模型”的说明书，而是一份成本控制实战手记

“5步降本70%！Qwen指南”——看到这个标题，我第一反应不是点开，而是放下手机，泡了杯浓茶。干这行十多年，见过太多把“降本”写成KPI、把“Qwen”当万能膏药的方案，最后落地时服务器账单照涨不误，业务方在会议室拍桌子，技术团队熬夜改提示词。但这次不一样。去年底我们给一家中型制造业客户做AI流程优化，原始方案是采购某云厂商的闭源大模型API服务，月均成本预估23.8万元；最终上线的Qwen私有化推理方案，首月实际支出6.9万元， 不是年化、不是估算、不是试运行折扣价，就是实打实的首月账单 。70.2%的降幅，背后没有魔法，只有五处关键决策点：模型选型卡位、推理引擎压榨、显存调度精算、批处理节奏重编排、以及最关键的—— 拒绝为“通用能力”付费 。这篇不是教你怎么跑通Qwen的Hello World，而是带你复盘我们如何把一个开源大模型，从“能用”变成“省到肉疼”。适合三类人：正在被AI成本压得喘不过气的中小企业技术负责人、想用Qwen替代现有API但被老板问“到底能省多少”的工程师、以及所有信奉“每一分钱都要算清楚”的务实派实践者。核心关键词就三个： Qwen、推理成本、显存利用率 ——全文所有操作、参数、对比，都围绕这三个词展开，不绕弯，不炫技，只讲钱怎么省下来的。

2. 成本结构解剖：为什么70%的降幅不是数字游戏，而是显存颗粒度的胜利

2.1 真正吃掉预算的，从来不是模型本身，而是“等待”

很多人一提大模型成本，立刻想到GPU价格、模型参数量、Token计费。错。在我们真实业务场景里（文档摘要+工单分类+知识库问答）， 推理延迟带来的资源空转，才是成本黑洞 。举个具体例子：客户原有系统用某云API，平均响应时间820ms，但其中630ms是网络传输+排队等待，真正在GPU上计算的时间仅190ms。这意味着——一张A10显卡（24GB显存）每秒最多处理1.2个请求，但为了应对峰值，他们必须常驻4张卡，实际平均利用率只有28%。钱花在了“等”上，而不是“算”上。

我们用Qwen-7B-Chat做基准测试，发现一个反直觉现象： 在相同硬件下，Qwen的单次推理耗时比某云API长15%，但整体吞吐量反而高2.3倍 。原因在于Qwen支持更激进的动态批处理（Dynamic Batching）和PagedAttention内存管理。简单说，当10个用户同时发来请求，闭源API会按顺序排队，每个请求独占显存；而Qwen能把这10个请求的KV缓存像拼图一样塞进同一块显存里，计算单元持续满负荷运转。我们实测数据如下：

指标	某云API（A10×4）	Qwen-7B（A10×1）	降幅
平均响应时间	820ms	940ms	+14.6%
P95延迟	1.42s	1.38s	-2.8%
每秒处理请求数（TPS）	1.2	2.78	+131.7%
显存平均占用率	28%	89%	—
月均费用（万元）	23.8	6.9	-70.2%

看到没？关键差异在TPS和显存利用率。70%的成本下降，本质是把原来散落在4张卡上的“碎片化等待”，压缩进1张卡的“连续计算流”里。这解释了为什么标题敢写“5步”——因为每一步都直指显存利用效率这个命门，而不是泛泛而谈“换模型”。

2.2 Qwen的“省钱基因”在哪？三个被低估的硬核特性

很多团队放弃Qwen，是因为听说“它需要更多显存”。这是对vLLM和FlashAttention-2技术栈的严重误读。我们拆解Qwen-7B的推理链路，发现它有三个天然适配降本的底层设计：

第一，KV缓存的分页式管理（PagedAttention） 。传统推理中，每个请求的KV缓存像一块固定大小的硬盘分区，哪怕只用10%也得预留整块空间。Qwen集成vLLM后，KV缓存被切成4KB小页，不同请求的页可以混存在同一显存块里。我们用nvidia-smi监控发现：在16并发下，Qwen的显存峰值比HuggingFace原生推理低37%，且波动极小——这意味着你可以用更小的显存卡（比如从A10换到RTX 4090），或者在同一张卡上塞进更多并发。

第二，量化感知的权重加载机制 。Qwen官方发布的AWQ量化模型（如Qwen-7B-Chat-AWQ），不是简单粗暴地把FP16压成INT4，而是在模型编译阶段就标记出哪些层对精度敏感（如注意力头）、哪些层可激进压缩（如FFN中间层）。我们对比过：用AWQ量化后，Qwen-7B在工单分类任务上F1值仅下降0.3%，但显存占用从13.2GB降到5.1GB，推理速度提升22%。这个“精度-体积”平衡点，是闭源API根本无法提供的——你买的是黑盒服务，连看一眼权重分布的权利都没有。

第三，无状态的流式响应设计 。Qwen的generate()函数默认启用stream=True，这意味着它不需要等整个输出生成完毕才返回token。在客服场景中，用户看到第一个字就开始阅读，后续字词持续“涌出”，主观等待感大幅降低。我们统计过：当P95延迟从1.42s降到1.38s时，用户主动中断请求率下降了63%。这直接减少了无效请求对GPU的占用——少一次中断，就少一次KV缓存重建的开销。

提示：别被“Qwen-7B”这个数字迷惑。我们测试过Qwen-1.8B在简单工单分类任务中准确率已达92.4%，而显存占用仅2.3GB。对很多企业来说，“够用”比“强大”更省钱。

3. 五步实操：从下载模型到月省17万，每一步都附带避坑血泪史

3.1 第一步：精准锁定模型版本——为什么我们弃用Qwen2-7B，死守Qwen-7B-Chat

刚接到项目时，团队有人提议直接上最新的Qwen2-7B。我当场叫停。原因很现实： Qwen2系列强制要求FlashAttention-2 v2.6+，而我们的A10服务器CUDA驱动是11.7，升级驱动会导致现有CUDA应用集体崩溃 。强行升级？运维同事拍着桌子说：“要动驱动，先给我批3天停机窗口。”——这成本比省下的钱还高。

我们翻遍Qwen GitHub Release Notes，发现Qwen-7B-Chat（非Qwen2）对FlashAttention兼容性极好，v2.3.3就能跑满性能。更重要的是，它的Tokenizer对中文标点处理更鲁棒。举个真实案例：客户工单里大量出现“问题：设备报错E102//重启无效”，Qwen2-7B会把“//”识别为特殊符号导致截断，而Qwen-7B-Chat稳定输出完整摘要。这个细节让我们少写了200行后处理正则。

操作步骤：

# 1. 创建隔离环境（避免污染现有PyTorch）
conda create -n qwen-cost python=3.10
conda activate qwen-cost

# 2. 安装兼容版FlashAttention（关键！）
pip install flash-attn==2.3.3 --no-build-isolation

# 3. 下载Qwen-7B-Chat（注意：必须用transformers>=4.37.0）
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-7B-Chat",
    device_map="auto",
    trust_remote_code=True,
    # 关键参数：启用flash attention但不强制v2.6+
    use_flash_attn=True
)

注意： trust_remote_code=True 是必须的，否则Qwen的chat模板和RoPE位置编码会失效。我们踩过坑——漏掉这行，模型输出全是乱码，排查了6小时才发现是tokenizer没加载自定义chat_template。

3.2 第二步：vLLM引擎部署——不是“装上就行”，而是显存的毫米级调度

很多人以为vLLM就是个加速器，装上就完事。大错特错。vLLM的真正威力，在于它把显存当成了可编程的“内存池”。我们通过五个参数，把A10的24GB显存榨出了92%的利用率：

--max-model-len 4096 ：这是最常被误设的参数。客户原始需求是处理500字以内的工单，但vLLM需要为每个请求预留最大长度的KV缓存空间。设成8192？显存直接爆掉。我们实测发现：将 max-model-len 设为实际输入长度的1.8倍（即500×1.8≈900），再向上取整到2048，既能覆盖99.7%的请求，又比设8192省41%显存。

--block-size 32 ：vLLM把KV缓存切分成“块”（Block），每个块存32个token的KV。设太小（如16）？块数量爆炸，元数据开销大；设太大（如64）？小请求浪费空间。我们用 nvidia-smi dmon -s u 监控显存使用曲线，发现32是A10上延迟与利用率的最佳平衡点。

--gpu-memory-utilization 0.95 ：这个参数告诉vLLM“允许用到95%显存”，而不是默认的0.9。别小看这5%，它让vLLM敢于把更多请求塞进同一块显存页。但必须配合 --max-num-seqs 256 （最大并发请求数），否则会因调度超时触发OOM。

--enforce-eager ：关闭。这个参数强制vLLM用传统方式执行，放弃PagedAttention。我们测试过，开启后TPS暴跌40%，显存利用率掉到63%——省钱的核心技术，自己关掉了。

--tensor-parallel-size 1 ：A10单卡，必须设为1。曾有同事误设为2，vLLM直接报错退出，日志里只有一行“CUDA error: invalid device ordinal”，查了3小时才发现是参数冲突。

完整启动命令：

python -m vllm.entrypoints.api_server \
    --model Qwen/Qwen-7B-Chat \
    --tokenizer Qwen/Qwen-7B-Chat \
    --trust-remote-code \
    --tensor-parallel-size 1 \
    --max-model-len 2048 \
    --block-size 32 \
    --gpu-memory-utilization 0.95 \
    --max-num-seqs 256 \
    --port 8000 \
    --host 0.0.0.0

实操心得：启动后立刻用 watch -n 1 'nvidia-smi' 盯住显存。如果 Volatile GPU-Util 长期低于70%，说明 max-num-seqs 设小了；如果 Used Memory 频繁跳变（±2GB），说明 block-size 需要调整。这是唯一能验证你是否真正“吃透”vLLM的现场指标。

3.3 第三步：AWQ量化——不是“越小越好”，而是精度与速度的黄金分割点

量化是降本最直接的手段，但盲目追求INT4会付出惨痛代价。我们做了三组对比实验：

量化方式	显存占用	推理速度（tok/s）	工单分类F1	知识库问答BLEU
FP16（原生）	13.2GB	38.2	96.7%	42.1
GPTQ-4bit	5.4GB	62.1	94.2%	38.7
AWQ-4bit	5.1GB	72.8	96.4%	41.9

看到没？AWQ不仅比GPTQ快17%，精度还更接近FP16。原因在于AWQ的激活感知（Activation-aware）量化策略：它在量化前先跑一遍校准数据，记录每层激活值的分布，然后为每层单独计算最优量化参数。GPTQ只是全局统一缩放。

操作关键点：

# 1. 下载官方AWQ模型（注意：必须用Qwen官方发布的，非社区微调版）
# 地址：https://huggingface.co/Qwen/Qwen-7B-Chat-AWQ

# 2. 启动vLLM时指定AWQ模型路径
python -m vllm.entrypoints.api_server \
    --model /path/to/Qwen-7B-Chat-AWQ \  # 关键！指向AWQ模型
    --quantization awq \                 # 告诉vLLM这是AWQ格式
    --trust-remote-code \
    ... # 其他参数同上

血泪教训：我们第一次用社区版Qwen-7B-GPTQ，结果在处理含数学公式的工单时，模型把“E=mc²”识别成乱码。换成官方AWQ后，所有公式符号完美保留。记住： 量化模型必须来自同一技术栈的官方发布，混搭=灾难 。

3.4 第四步：动态批处理（Dynamic Batching）——让GPU从“出租车”变成“地铁”

这是实现70%降本的临门一脚。很多团队以为“开了vLLM就自动批处理”，其实不然。vLLM的批处理需要业务层配合——你的API网关必须把请求“攒够一波”再发给vLLM，而不是来一个转一个。

我们用Nginx做请求聚合：

# nginx.conf 片段：将100ms内的请求合并为一批
upstream vllm_backend {
    server 127.0.0.1:8000;
    keepalive 32;
}

server {
    location /v1/chat/completions {
        # 关键：启用proxy_buffering，让Nginx暂存请求体
        proxy_buffering on;
        proxy_buffer_size 128k;
        proxy_buffers 4 256k;
        
        # 最重要：设置proxy_busy_buffers_size，控制合并窗口
        proxy_busy_buffers_size 512k;
        
        # 转发到vLLM
        proxy_pass http://vllm_backend;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

但光靠Nginx不够。我们在业务代码里加了“请求水位线”逻辑：

# Python伪代码：当并发请求数<8时，强制等待50ms再发送
import asyncio
import time

async def batched_inference(requests):
    if len(requests) < 8:
        await asyncio.sleep(0.05)  # 等待凑够8个
    # 批量发送到vLLM API
    return await call_vllm_api(requests)

效果立竿见影：在流量高峰时段，vLLM的 num_requests_running 指标从平均12飙升到210，TPS从2.78冲到5.3。这意味着同一张A10卡，现在每秒能处理5个用户请求，而不是2个—— 成本直接再降57% （2.78→5.3，倒数关系）。

注意：动态批处理不是万能的。我们发现当用户请求长度差异过大（如10字vs1000字），批处理会拖慢短请求。解决方案是按请求长度分桶：1-100字进A桶，101-500字进B桶，501+进C桶，各桶独立批处理。这个细节让P95延迟降低了220ms。

3.5 第五步：监控闭环——没有监控的降本，都是空中楼阁

最后一步，也是最容易被忽略的一步：建立成本-性能监控闭环。我们用Prometheus+Grafana搭了三张核心看板：

看板1：显存利用率热力图
Y轴是时间（分钟级），X轴是显存使用率（0-100%），颜色深浅代表该区间停留时长。理想曲线应该集中在85-95%区间（深红色），如果大量时间在30-50%（浅黄色），说明 max-num-seqs 设小了。

看板2：请求长度-延迟散点图
横轴是输入token数，纵轴是响应时间。我们画了两条线：一条是理论延迟（线性增长），一条是实测延迟。当实测线明显高于理论线，说明KV缓存碎片化严重，需要调小 block-size 。

看板3：成本-精度平衡仪表盘
实时计算：每千次请求的费用（元） vs 工单分类F1值。当F1跌破95%时，仪表盘自动标红，并触发告警：“检测到精度损失，建议回退到FP16模型或调整AWQ校准数据集”。

这套监控让我们在客户业务变更时快速响应。上周客户新增“设备型号识别”需求，我们发现新样本让F1掉到94.1%，立刻用新数据重跑AWQ校准，2小时内恢复到96.3%，费用仅增加0.8%—— 降本不是一锤子买卖，而是持续精调的过程 。

4. 成本效益深度复盘：70%是怎么算出来的？附详细财务模型

4.1 硬件成本：从4张A10到1张A10，省下的不只是租金

很多人只算云服务API的月租，却忘了自有硬件的隐性成本。我们做了全生命周期对比：

项目	某云API方案	Qwen私有化方案	差额
GPU硬件采购（A10×4）	0元（云服务）	￥86,000（二手A10，含税）	+￥86,000
月度云服务费	￥238,000	￥0	-￥238,000
运维人力（0.5人/月）	￥15,000	￥8,000（仅需监控）	-￥7,000
电力成本（4卡×250W）	￥1,200	￥300（1卡）	-￥900
首年总成本	￥2,932,000	￥1,022,000	-￥1,910,000

看到没？虽然硬件一次性投入8.6万，但 首年就省下191万 。更关键的是，这张A10卡还能跑其他AI任务（如CV质检模型），实现了资源复用。而云API的23.8万，是纯消耗性支出，用完即废。

4.2 隐性成本：那些被API隐藏的“温柔陷阱”

闭源API最狡猾的地方，在于它把成本藏在看不见的地方：

陷阱1：Token计费的“水分”
某云API对输入+输出token统一计费，但我们的业务中，输入工单平均320字（约420 token），输出摘要仅80字（约105 token）。这意味着 79%的费用花在了输入上 ——而输入token根本不消耗GPU算力！Qwen私有化后，我们只对输出token计费（用于内部成本分摊），输入完全免费。

陷阱2：冷启动的“隐形税”
云API的实例是按需伸缩的。当流量低谷时，实例缩容；高峰时再拉起。但每次拉起都要加载模型（30秒+），这期间请求全部失败或超时。我们统计过：客户每月因冷启动失败的请求达1.2万次，按单次服务价值￥50计算，隐性损失￥60万/年。Qwen常驻内存，永远“热着”。

陷阱3：调试成本的黑洞
用API时，模型输出异常，你只能看到HTTP 500错误，连日志都看不到。我们曾为一个工单分类错误，花了3天和云厂商扯皮，最后发现是他们的Tokenizer把“故障”和“故障”（带空格）当成不同词。Qwen私有化后， print(model.model.layers[12].mlp.gate_proj.weight) 一行代码就能定位问题—— 调试时间从天级降到分钟级 。

4.3 ROI计算：为什么第4个月就回本？

我们用客户真实数据建模：

首月：硬件投入￥86,000 + 部署人力￥25,000 = ￥111,000
月度节省：￥238,000 - ￥6,900 = ￥231,100
回本周期 = ￥111,000 ÷ ￥231,100 ≈ 0.48个月（约14天）

等等，这不对？因为首月还有调试、迁移、培训成本。实际财务模型是：

第1月：净支出￥111,000（硬件+人力）
第2月：净节省￥231,100 - ￥35,000（迁移补偿） = ￥196,100
第3月：净节省￥231,100 - ￥15,000（优化人力） = ￥216,100
累计至第3月末：-￥111,000 + ￥196,100 + ￥216,100 = ￥301,200

所以严格来说， 第3个月末已回本，第4个月开始纯盈利 。这还没算上因响应更快（940ms vs 820ms）带来的客户满意度提升——客户续约率从72%升到89%，这才是真正的长期价值。

5. 常见问题与实战排障：那些文档里不会写的“脏活累活”

5.1 问题1：vLLM启动报错“CUDA out of memory”，但nvidia-smi显示显存充足

这是最经典的“显存幻觉”。根本原因：vLLM的 gpu-memory-utilization 参数是按 GPU总显存 计算的，而A10的24GB显存中，有1.2GB被系统保留（如CUDA上下文、驱动缓冲区）。所以实际可用显存是22.8GB， 0.95×22.8≈21.7GB 。但如果你设了 --max-model-len 4096 ，vLLM会按理论最大值申请显存，导致爆掉。

解决方法 ：

先用 nvidia-smi -q -d MEMORY 确认真实可用显存
计算安全上限： 可用显存 × 0.9 （留10%余量）
用 vllm.entrypoints.api_server --help 查 --max-model-len 与显存的关系公式
反向推导： max-model-len ≤ (可用显存×0.9) ÷ 2.1MB （Qwen-7B每token KV缓存约2.1MB）

我们实测：22.8GB × 0.9 = 20.5GB → 20.5GB ÷ 2.1MB ≈ 9760 → 向下取整到 2048 （兼顾安全与性能）

提示：这个计算必须手算，不能依赖vLLM的自动估算。我们吃过亏——让vLLM自动算，它给了4096，结果每天凌晨3点必OOM。

5.2 问题2：AWQ模型输出中文乱码，但英文正常

这是Tokenizer和模型权重不匹配的典型症状。Qwen的AWQ模型必须搭配 同版本的Qwen-Tokenizer ，而很多团队用 AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat") 加载，却忘了AWQ模型在HuggingFace上是独立仓库。

正确姿势 ：

# 错误：用通用Tokenizer加载AWQ模型
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat")

# 正确：从AWQ模型路径加载Tokenizer
tokenizer = AutoTokenizer.from_pretrained("/path/to/Qwen-7B-Chat-AWQ")

因为AWQ模型的 config.json 里指定了 tokenizer_class 为 QwenTokenizer ，而通用路径下可能加载到 LlamaTokenizer （Qwen早期兼容Llama架构导致的bug）。我们用 tokenizer.encode("你好") 对比发现：通用Tokenizer输出 [151643] ，而正确Tokenizer输出 [151644] ——就差1，但整个词表就偏了。

5.3 问题3：动态批处理后，长请求拖垮短请求，P95延迟飙升

这是批处理的阿喀琉斯之踵。我们的解法是“分桶+优先级队列”：

在API网关层，按输入长度分三桶：
- 桶A（1-100 token）：等待阈值50ms，目标批大小8
- 桶B（101-500 token）：等待阈值100ms，目标批大小4
- 桶C（501+ token）：不等待，直通vLLM（避免长请求积压）

用Redis Sorted Set实现优先级队列：

# 将请求按“最晚可等待时间”存入ZSET
redis.zadd("batch_queue:A", {json.dumps(req): time.time() + 0.05})
# 每5ms扫描一次，取出到期请求

关键技巧：桶C的请求虽然不等待，但进入vLLM后会被赋予更高调度优先级（vLLM的 priority 参数），确保它不被桶A/B的请求饿死。

这套组合拳让P95延迟从1.38s稳定在0.92s，且标准差降低63%——这才是企业级服务该有的稳定性。

5.4 问题4：客户说“Qwen输出不如原来API人性化”，其实是Prompt工程的锅

最初上线时，客户反馈：“Qwen回答太机械，不像真人。”我们对比发现，不是模型能力问题，而是Prompt模板没对齐。原API用的是“角色扮演”式Prompt（如“你是一个资深客服，请用亲切的语气...”），而Qwen-7B-Chat默认用 <|im_start|> 标签。

解决方案 ：

重写Prompt模板，注入温度系数：

prompt = f"""<|im_start|>system
你是一个经验丰富的制造业客服专家，回答要简洁、专业、带温度。避免使用“根据您的描述”，直接给出解决方案。
<|im_end|>
<|im_start|>user
{query}
<|im_end|>
<|im_start|>assistant
"""

在vLLM启动时加参数： --temperature 0.7 （原API默认0.85，我们调低一点保准确率）
关键：用 --repetition-penalty 1.15 抑制“重复强调”这种AI腔

改完后，NPS（净推荐值）从32升到67，客户说：“现在听不出是AI还是人在回。”

最后分享个野路子：我们把客户历史优质人工回复（127条）喂给Qwen做LoRA微调，只训了2小时，F1提升1.2%，且完全不增加推理成本——因为LoRA权重在vLLM里是常驻内存的，不参与实时计算。

6. 经验总结：降本的本质，是把“不可控”变成“可计算”

写完这篇，我重新翻了项目启动时的会议纪要。当时CTO问：“Qwen真能省70%？”我没回答，只扔出一张纸：上面写着“显存利用率28% → 89%”。今天回头看，这70%不是玄学数字，而是五个可触摸、可测量、可复现的技术动作：

选对模型版本（避开驱动冲突）
用对vLLM参数（毫米级调度显存）
量化不贪多（AWQ的精度-体积黄金点）
批处理讲策略（分桶+优先级）
监控定闭环（成本-精度实时联动）

没有一步是“黑科技”，每一步都在和硬件物理极限打交道。所谓降本，不过是把过去交给云厂商的“不可控变量”（网络抖动、排队策略、底层驱动），全部收归自己手中，变成一行行可调试的参数、一张张可解读的监控图、一个个可优化的数字。

我在实际部署中最大的体会是： 别信“一键部署”，要信“一行一行调参” 。当你的 nvidia-smi 窗口里， Volatile GPU-Util 那行数字稳稳停在89%，当你看到月度账单从23.8万变成6.9万，那一刻的踏实感，比任何技术发布会都真实。

这个方案后续还能怎么扩展？我们已经在测试Qwen-1.8B+AWQ跑在RTX 4090上，目标是把单卡成本压到￥2.3万/月；也在探索用Qwen-VL处理设备故障图片，把文本+图像成本打包优化。但所有扩展的前提不变： 先算清显存这笔账，再谈AI有多酷 。

亚马逊云科技技术品牌专区

更多推荐

2026年量化工具选择，要跟着能力基础走

读者应理解，选择工具前要先判断自己的能力基础和当前任务。工具应该帮助自己补上当前最关键的缺口，而不是替代学习顺序本身。

亚马逊云科技技术品牌专区

加州理工 CS367 C 语言系统编程笔记（一）

C语言是一种强大且广泛使用的编程语言，尤其在系统编程领域。本节课我们将学习C语言的基础语法，包括如何编写“Hello, World!”程序、声明变量以及使用基本数据类型。我们将通过实际的代码示例来加深理解。本节课中我们一起学习了C语言的基础语法，包括如何编写和运行一个简单的C程序、声明变量以及使用基本数据类型。我们还介绍了如何使用Shell环境来编译和运行程序。通过对比Java，你可以看到C语言在