55-dify案例分享-巧用 Dify 工作流，解锁高效口语单词练习秘籍

本文介绍利用 Dify 工作流制作口语单词练习工具的方法，流程包括上传单词本图片、多模态模型 OCR 识别、大语言模型生成互动 HTML 代码、参数提取及格式转换等。还分享了国内模型使用替代方案，最后给出体验地址与开源项目信息。

wwwzhouhui

891人浏览 · 2025-05-24 11:29:28

wwwzhouhui · 2025-05-24 11:29:28 发布

1前言

AI英语学习是指利用人工智能技术来帮助学习者提高英语水平的教育方式。它结合了自然语言处理（NLP）、机器学习、语音识别、语音合成等技术，为学习者提供个性化、高效和互动的学习体验。以下从多个角度详细阐述AI英语学习的定义、特点和应用。

AI 英语学习应用非常广泛，包括口语练习、写作辅助、阅读理解、语法学习。今天就带大家使用dify工作流制作一个口语练习的小工具，我们看一下工作流：

最终的页面效果

大家可能很好奇，这个口语单词练习的小工具是如何制作的呢？话不多说下面带大家实际操作使用。

2.工作流的制作

这里我们简单介绍一下工作流的原理，首选我们是需要上传一个需要练习单词的单词本，接下来我们可以借助第三方工具实现图片OCR识别或者使用多模态大模型对图片内容进行准确的识别，接下来把识别的内容发给一个代码编写能力比较强的文本类大语言模型让他生成带有口语练习的html代码，接下来我们使用dify的参数提取器把html代码提取出来，后面我们在使用一个markdown转html工具把它转成html页面输出。

接下来我们开始制作这个工作流。

开始

这个开始节点我们设置一个file参考，主要的目的是接受用户上传的图片。

ocr识别

接下来我们使用一个多模态大语言模型对上传的OCR图片进行解析和识别。我这里使用google gemini2.5-flash-preview-04-17模型

系统提示词如下

仅输出识别到的图片中的文字信息

这里因为用到多模态模型，所以把视觉开关开启

生成英语单词html

这个我们使用一个代码生成能力比较强的大语言模型。我这里使用google 最新的gemini2.5-flash-preview-05-20 模型

系统提示词如下：

分析英语单词，编写英语单词的互动网页动画小程序，要求点击时能发出单词声音，并读3次，然后还能对每一个单词能进行录音，校验读音是否准确，帮助记忆单词，仅输出html程序请使用中文，不要用英文

用户提示词

请根据用户输入的信息{{#1747991921941.text#}}生成html

下面是整个llm大语言模型完整配置截图

参数提取器

接下来我们使用一个叫做参数提取器的组件来提取上个节点生成的HTML代码。有的小伙伴可能有疑问了，上面的模型提示词写准确点让它直接返回html代码不就可以了吗？干嘛这个地方在增加一个参数提取器（多此一举）。是的，您说的没错。我也感觉是多余，但是大家别忘记了大模型是具有幻觉的及时提示词要求只输出中文，它也会照样给你回复带有英文的内容是把？尤其是很多小伙伴用的是R1的带思考的模型，模型会非常啰嗦给你写一堆你不需要的解释，这样干扰了我们的输出。

这个参数提取器的输入变量是上个节点的内容。

参数提取器模型这里，我们还是使用 google 的模型，这里要求不高，我们只要快，所以选择gemini2.0-flash-lite模型

提取的参数这里我们设置html

指令内容如下

请提取大模输出的html部分代码，其他的不需要

Markdown转HTML文件

接下来我们使用一个叫做Markdown转HTML文件第三方工具，关于这个第三方工具的安装，这里就不做详细展开，不熟悉的下伙伴可以看我前期文章《dify案例分享- 用 Dify 搭建智能合同评审工作流，10 分钟搞定风险排查》

输入变量这里我们选择参数提取器输出html

直接回复

这个我们为了方便调试，所以把ocr识别、生成英语单词html、Markdown转HTML文件输出结果3个都输出

以上我们就完成了工作流的搭建了

补充知识

有的小伙伴可能有疑问了，你都用的是国外的google gemini2.5等模型，我在国内网络怎么使用呢？

上面的几个模型大家都是可以切换其他厂商的模型，第一个OCR模型需要多模态模型，第二个模型需要代码能力强的模型，第三个模型随便普通的模型就可以了。

关于多模型模型的选择，很多小伙伴可能不知道，这里给大家推荐上海人工智能实验室一个模型评测平台https://rank.opencompass.org.cn/home

大家可以根据上面的多模态模型排行榜根据自己的需求选择开源或者闭源模型来满足业务的要求。

另外很多小伙伴在国内是访问不了google gemini系列的模型的，我这里给大家提供一个福利，可以使用我搭建的一个中间代理地址使用，只需要填写你自己的api key就可以了。

代理地址：https://geminicloudflare.duckcloud.fun

我这里提供2 种客户端代理配方法，方便大家使用

Cherry Studio

dify 配置

在模型供应商上选择OpenAI-API-compatible

我手工添加的google 国内代理地址模型

具体配置我这边举一个模型的例子，配置如下：

关于google api key从哪获取，可以去https://aistudio.google.com/ 注册申请获取(注册不了自己想办法)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.验证及测试

我们制作好的工作流可以在工作流平台上验证测试一下，点击左上角“预览”按钮，

测试数据连接地址：https://mypicture-1258720957.cos.ap-nanjing.myqcloud.com/Obsidian/%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20250524084935.jpg

生产的结果有OCR识别的内容，有html生成的代码，还有生成html页面

我们可以点开HTML页面之间浏览器打开（这个地方注意，如果你需要打开需要再docker 把5001 端口开放出来），不能直接打开也可以点击下载后在本地文件打开html

体验地址

chatflow版本https://dify.duckcloud.fun/chat/V2fhnOOggOgcjR2U 备用地址（http://14.103.204.132/chat/V2fhnOOggOgcjR2U）

相关资料和文档可以看我开源的项目 https://github.com/wwwzhouhui/dify-for-dsl

4.感谢

这个工作流的思路是基于周茂华老师的教学经验总结提炼了。非常感谢周茂华老师的提供的提示词。

参考文献《英语单词学习神器：家长带娃的“救星”，孩子学习的“加速器”》

5.总结

今天主要带大家了解并实现了使用 dify 工作流制作口语单词练习小工具的方案。该工作流的搭建涉及多个关键步骤，包括设置开始节点接受用户上传的图片、使用多模态大语言模型进行 OCR 识别、利用代码生成能力强的大语言模型生成英语单词的互动网页动画小程序的 HTML 代码、使用参数提取器提取 HTML 代码、通过 Markdown 转 HTML 文件工具将其转换为 HTML 页面，以及为方便调试输出多个节点的结果等环节。

与传统的英语学习方式相比，该方案不仅能够借助 AI 技术为学习者提供个性化、高效和互动的口语练习体验，还能利用图片识别功能，将纸质单词本转化为可互动的在线学习工具，为用户提供了更加智能、便捷的学习途径。此外，通过灵活切换不同厂商的模型，该方案还具备良好的扩展性，可以根据实际需求选择更合适的模型，以满足不同用户的业务要求。

感兴趣的小伙伴可以按照本文步骤去尝试。今天的分享就到这里结束了，我们下一篇文章见。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。