DJL 0.28 实战：Java本地跑通Llama 3/Qwen，零环境依赖

东离与糖宝

590人浏览 · 2026-03-04 17:03:46

东离与糖宝 · 2026-03-04 17:03:46 发布

文章目录

无意间发现了一个CSDN大神的人工智能教程，忍不住分享一下给大家。很通俗易懂，重点是还非常风趣幽默，像看小说一样。床送门放这了👉 http://blog.csdn.net/jiangjunshow

前言：当Java程序员遇上AI模型，别急着装Python

咱们Java程序员有个共同的噩梦：好不容易把Spring Boot项目调顺了，产品经理突然说"加个AI功能吧"，然后甩过来一个.py文件。得，又得去折腾Conda环境、CUDA版本、PyTorch和TensorFlow的兼容性，电脑里瞬间多出五六个Python虚拟环境，像养了一窝蛊。

更离谱的是，生产环境部署时，运维大哥看着那一堆requirements.txt直摇头：“这玩意版本锁得比Bank金库还死，稍有不慎就全剧终。”

难道Java生态就只能在AI浪潮中当个"远程API调用机"？当然不是。AWS开源的Deep Java Library（DJL）就是来拯救我们的——它让Java程序能直接加载运行大模型，无需安装Python，无需配置CUDA，一个JAR包走天下。

什么是DJL？给Java插上AI的翅膀

Deep Java Library（DJL）是AWS开源的深度学习框架，专门为Java开发者设计。它最牛的地方在于"引擎无关"——底层可以对接PyTorch、TensorFlow、ONNX Runtime等多种引擎，但上层API统一得像Java标准库。

想象一下，DJL就像是AI界的JDBC。以前不同的数据库要不同的驱动，JDBC统一了接口；现在不同的AI框架要不同的环境，DJL统一了调用方式。你的代码只需写一次，底层可以随意切换引擎，甚至从PyTorch换成ONNX Runtime，业务代码一行都不用改。

目前DJL 0.28版本（及后续版本）已经支持了HuggingFace的tokenizer，还能直接加载转换后的Llama、Qwen等主流大模型。重点是，这一切都在JVM内完成，不需要启动Python进程，没有跨进程通信的开销，内存管理也更可控。

环境准备：Maven三件套，拒绝环境地狱

要在Java项目里跑大模型，首先得在pom.xml里引入DJL的核心依赖。这里我们使用0.28.0版本作为基础（与最新API兼容，稳定性经过验证）：


    0.28.0
    2.2.2




    ai.djl.pytorch
    pytorch-engine
    ${djl.version}




    ai.djl.pytorch
    pytorch-native-cpu
    ${pytorch.version}-${djl.version}
    win-x86_64 
    




    ai.djl.huggingface
    tokenizers
    ${djl.version}

这里有个坑要提醒：如果你用GPU加速，需要把pytorch-native-cpu换成pytorch-native-cu121（对应CUDA 12.1），不过考虑到很多兄弟的电脑只有核显，我们先以CPU运行为主——毕竟DJL的优化做得不错，现代CPU跑个7B量化模型也蛮流畅的。

模型准备：把HuggingFace模型"翻译"成Java能懂的语言

DJL不能直接吃GGUF格式（那是llama.cpp的专属格式），但它能直接加载HuggingFace的PyTorch模型，或者更推荐的方式：通过DJL转换器把模型打包成TorchScript格式。

第一步：安装转换工具

DJL提供了一个Python小工具djl-convert来完成这个转换。别怕，这个工具只在你开发机用一次，生产环境完全不需要Python：

# 安装转换器（只需开发机执行一次）
pip install djl-converter

第二步：下载并转换模型

以Qwen2.5-7B-Instruct为例（Llama 3同理），我们先从HuggingFace下载，然后转换成DJL格式：

# 转换Qwen模型（自动生成TorchScript）
djl-convert -m Qwen/Qwen2.5-7B-Instruct -f PyTorch

# 或者转换Llama 3
djl-convert -m meta-llama/Meta-Llama-3-8B-Instruct -f PyTorch

转换完成后，会在当前目录生成model文件夹，里面有：

model.pt：转换后的TorchScript模型
config.json：模型配置
tokenizer.json：分词器配置
serving.properties：服务配置（可选）

这个model文件夹就是我们要加载的"弹药库"。

实战代码：15行Java跑通大模型

现在进入最刺激的部分——写Java代码加载模型并推理。DJL的设计很Java范儿，用Builder模式链式调用，看着就舒服：

import ai.djl.*;
import ai.djl.inference.*;
import ai.djl.modality.nlp.*;
import ai.djl.repository.zoo.*;
import ai.djl.translate.*;
import ai.djl.huggingface.tokenizers.*;
import java.nio.file.Paths;
import java.util.*;

public class LocalLLM {
    public static void main(String[] args) throws Exception {
        // 1. 加载tokenizer（从本地路径或HuggingFace ID）
        HuggingFaceTokenizer tokenizer = HuggingFaceTokenizer.builder()
                .optTokenizerPath(Paths.get("model/tokenizer.json"))
                .optMaxLength(2048)
                .optPadToMaxLength()
                .build();

        // 2. 构建模型加载条件
        Criteria criteria = Criteria.builder()
                .setTypes(String.class, String.class) // 输入输出都是String
                .optModelPath(Paths.get("model"))     // 模型文件夹路径
                .optTranslator(new TextGenerationTranslator(tokenizer))
                .optEngine("PyTorch")                 // 指定引擎
                .optOption("mapLocation", "true")     // 允许CPU加载GPU训练的模型
                .build();

        // 3. 加载模型并创建预测器
        try (ZooModel model = criteria.loadModel();
             Predictor predictor = model.newPredictor()) {

            // 4. 开始聊天
            String prompt = "<|im_start|>user\n你好，请介绍一下DJL库<|im_end|>\n<|im_start|>assistant\n";
            String response = predictor.predict(prompt);

            System.out.println("AI回复：" + response);
        }
    }
}

上面的TextGenerationTranslator需要自己实现一下，主要是处理tokenize和detokenize的逻辑：

import ai.djl.modality.nlp.*;
import ai.djl.ndarray.*;
import ai.djl.translate.*;

public class TextGenerationTranslator implements Translator {
    private final HuggingFaceTokenizer tokenizer;
    private final int maxNewTokens = 512;

    public TextGenerationTranslator(HuggingFaceTokenizer tokenizer) {
        this.tokenizer = tokenizer;
    }

    @Override
    public NDList processInput(TranslatorContext ctx, String input) {
        // 将文本转为token IDs
        long[] ids = tokenizer.encode(input).getIds();
        NDManager manager = ctx.getNDManager();
        NDArray array = manager.create(ids).expandDims(0);
        return new NDList(array);
    }

    @Override
    public String processOutput(TranslatorContext ctx, NDList list) {
        // 贪婪解码：取概率最高的token
        NDArray probs = list.singletonOrThrow();
        long[] tokenIds = probs.argMax(-1).toLongArray();

        // 去掉输入部分，只保留新生成的token
        String fullText = tokenizer.decode(tokenIds);
        return fullText;
    }

    @Override
    public Batchifier getBatchifier() {
        return Batchifier.STACK;
    }
}

这段代码看起来比Python的transformers库多一些 boilerplate，但好处是类型安全、异常可控，而且完全在JVM内运行，没有Python的GIL锁限制，多线程并发性能直接起飞。

进阶玩法：量化模型与内存优化

如果你的电脑内存有限（比如只有16GB），跑7B模型可能会吃紧。这时候可以用量化版模型——DJL支持通过ONNX Runtime加载INT8量化模型，体积直接砍半，速度还能快不少。

转换命令稍微改一下：

# 转换为ONNX格式并量化
djl-convert -m Qwen/Qwen2.5-7B-Instruct -f OnnxRuntime --quantize

然后在Java里把引擎改成OnnxRuntime即可：

Criteria criteria = Criteria.builder()
    // ...其他配置相同
    .optEngine("OnnxRuntime")  // 切换为ONNX引擎
    .build();

另外，DJL支持零拷贝（Zero-Copy）推理，对于高并发场景，可以预先分配NDArray内存池，避免GC抖动。这点在金融级应用里特别重要——谁也不想交易系统因为GC停顿而错过行情。

避坑指南：新手常踩的雷

Tokenizer版本不匹配
有些模型（尤其是国产的Qwen系列）的tokenizer.json格式比较新，DJL 0.28可能解析失败。解决方法是先用Python导出标准的tokenizer配置：

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")
tokenizer.save_pretrained("./model")  # 这会生成兼容的tokenizer.json

模型路径问题
DJL加载本地模型时，路径必须是绝对路径或者Maven项目的resources目录。如果用相对路径./model，可能会报ModelNotFoundException。建议用Paths.get(System.getProperty("user.dir"), "model")来构造路径。
内存溢出
大模型默认会吃掉所有可用内存。如果跑的是7B模型，至少预留8GB内存。可以在启动JVM时加参数限制：
```
java -Xmx12G -jar your-app.jar  # 给JVM分12GB
```

总结：Java AI化的临门一脚

DJL的出现，让Java开发者不用再当AI时代的"二等公民"。它不是什么"实验性项目"，而是已经在AWS生产环境跑了多年的成熟框架——从Spring Boot微服务到大数据Spark作业，都能无缝集成。

对于想在本地跑Llama 3、Qwen等开源模型的Java程序员，DJL提供了一条零Python依赖的路径：转换一次模型，到处运行；写一次Java代码，随意切换底层引擎。再也不用为了跑个AI功能，把电脑搞成Python环境展览馆。

而且，这一切完全开源，社区活跃度也不错。如果你受够了Python的环境地狱，不妨试试DJL——毕竟，写Java的尊严，得靠自己挣回来。

在这里插入图片描述

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

有了AI后，你开始了全栈开发了么？

但随着Cursor、CodeBuddy、通义灵码、AI Agent开发工具普及，一句自然语言需求就能生成完整前后端代码、自动写接口、一键部署，大量独立开发者、产品、甚至零基础创业者宣称自己“一人搞定全栈项目”。想要独立完成一款产品，必须吃透前端界面、后端服务、数据库、服务器部署全套技术，学习周期漫长，中小企业才愿意招聘全栈人才，大厂普遍严格拆分前端、后端、测试、运维岗位，专人专岗。对于小工具、私域

龙虾开发者社区

开源神器 book-to-skill：一键把 PDF/EPUB/ 文档转为 AI 标准化 Skill，告别长文本幻觉与 Token 爆炸

龙虾开发者社区

AI 把地板抬起来了，但天花板还在原地：为什么我们需要被放大的匠人手艺

的故事。AI 已经把地板抬起来了。现在，是时候把天花板抬起来了。在你当前用 AI 做创造性工作的流程里，你最不愿意完全交给 Agent 的那最后 20% 是什么？是视觉判断、是叙事张力、还是某种只有你自己才能感受到的“正确感”？把那个具体场景说出来，我们一起讨论怎么用工具把它真正放大。我是紫微AI，在做一个「人格操作系统（ZPF）」。后面会持续分享AI Agent和系统实验。感兴趣可以关注，我们下