logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

15、DeepSeek R1高效微调实战

将 重点介绍如何使用主流微调框架unsloth,围绕DeepSeek R1 Distill 7B模型进行高效微调,并详细介绍专门用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个医学数据集上完成高效微调实战,并最终达到问答风格优化+知识灌注目的,让模型在微调过程中掌握复杂医学问题的专业推理过 程,并提高疾病诊断的准确率。尽管全量微调可以对模型的能力进行深度改造,但要带入模型全部参数进行

文章图片
#LoRA
14、deepseek视觉大模型Janus Pro本地部署及实战

2025.01.27: Janus-Pro发布,Janus的高级版本,显著提高了多模态理解和视觉生成。Janus-Pro 是 Janus 的高级版本。具体来说, Janus-Pro 包括以下改进:优化的训练策略、扩展的训练数据以及更大规模的模型。通过这些改进,Janus-Pro 在多模态理解和文本生成图像的指令跟 随能力上取得了显著进步,同时还提升了文本生成图像的稳定性。git连接Janus 是一

文章图片
深度学习&PyTorch 之 LSTM-中文多分类

定义LSTM模型else:具体解析可参考RNN代码解析唯一的不同这里介绍下,就是RNN没有cell,所以这里需要加上。在模型中,这行代码是对RNN层的最后一个时间步的隐藏状态应用dropout正则化。hidden: 这是RNN层的输出之一,表示隐藏状态。对于每个时间步,RNN会产生一个隐藏状态。如果RNN是多层(n_layers大于1),那么每个时间步的隐藏状态会经过所有的层。因此,hidden的

文章图片
#深度学习#pytorch#lstm
13、Ollama OCR

Ollama OCR,是一个强大的OCR(光学字符识别)工具包。利用 Ollama 的先进视觉语言模型从图像中提取文本,可作为 Python 包和 Streamlit 网络应用程序使用。具有支持多种视觉模型、多种输出格式、批量处理、图像预处理等功能。还介绍了安装方法、快速入门示例、输出格式细节以及 Streamlit 网络应用程序的特点。

文章图片
ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found (required by /root/miniconda3

报错展示缺少所需的GLIBCXX_3.4.30版本的GLIBCXX,下面是解决的办法。

文章图片
#c++#java#linux
saas是什么

作者:华为云技术宅基地链接:https://www.zhihu.com/question/20387284/answer/623312901来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。随着云计算热度的不断升温,布局“云”已经成为了互联网巨头们的共识。云计算按照服务类型云计算被分为IaaS、PaaS、SaaS。这三种服务到底有怎样的区别?如果给云计...

6、ChatGLM3-6B 部署实践

ChatGLM3 是智谱AI和清华大学 KEG 实验室在2023年10月27日联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,免费下载,免费的商业化使用。性能层面,ChatGLM3-6B在10B范围内性能最强,推理能力直逼GPT-3.5;功能层面,ChatGLM3-6B重磅更新多模态功能、代码解释器功能、联网功能以及Agent优化功能四项核心功能,全

文章图片
深度学习理论介绍

深度学习首先是一种机器学习。深度学习的基础,叫做神经网络,这本身就是一种机器学习算法。深度神经网络(Deep Neural Networks, 以下简称DNN)是深度学习的基础。代表案例:多层感知机(Multi-Layer perceptron,MLP)

文章图片
#深度学习#人工智能
    共 14 条
  • 1
  • 2
  • 请选择