
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
LLAMA3.1模型分为8B、70B、405B三个版本,其中70B和405B对于显存的要求均已超过了一般家用电脑的配置(或者换个说法,用一张4090也是带不起来的),所以运行8B即可。LLAMA3.1 8B的性能约相当于ChatGPT3.5。
复旦大学计算科学技术学院教授、博士生导师。主要研究方向是自然语言处理和信息检索,聚焦自然语言表示、信息抽取、鲁棒性和解释性分析等。兼任中国中文信息学会理事、中国中文信息学会理信息检索专委会常务委员、中国人工智能青年工作委员会常务委员、SIGIR

AI Agent是一种智能实体,能够感知环境、决策并执行动作,具有独立思考和执行任务的能力。与传统大模型相比,AI Agent能够独立思考目标并采取行动,而不仅仅依赖于提示。AI Agent基于大模型,具备上下文学习、推理和思考的能力,因此是通往AGI(通用人工智能)的主要研究方向。

小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

在完成了tokenization之后,我们已经可以将一个个的单词映射到对应的数字,称之为token ID,这些数字已经可以被计算机处理。
AI大模型智能体(Agent)彻底火出圈,从自动写代码、处理工作流,到模拟人类完成复杂任务,几乎成了技术人必聊的热点。

在这股AI浪潮下,Java也在努力的紧跟的AI发展,那如今Java AI的生态如何?有哪些厂商和社区还在发力Java AI方向?

今天不聊技术,聊两个话题,一个是我2025年,去一些场合做AI分享时和给一些企业做AI转型咨询时,大家都关心什么,都想用AI做什么;第二个是,现在人才发展的模型应该是什么样的。
小王自己结合之前看的一些AI文章,感觉老板说的很有道理,现在做知识检索,无非就是RAG或者直接把知识微调进模型里,让知识根深蒂固刻在模型骨子里,那既然RAG不行,那就微调吧。
LangServe是一个 `Python` 包,专门用于将基于 `LangChain` 的程序和链部署为生产就绪的 API。








