logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

字节筋斗云2面:什么是MoE架构?

是时候准备面试和实习了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。喜欢本文记得收藏、关注、点赞。今年初发布的 DeepSeek V3/R1 模型火爆全球,也带火了大语言模型(LLM)的混合专家模型(Mixture-of-Experts,MoE)架构。

文章图片
#面试#算法#深度学习 +1
DeepSeek-R1 + Cherry Studio 本地部署打造个人 AI 知识库

ChatGPT 爆火的时候,我心里就燃起了一个想法:打造一个专属于自己的AI知识库,它就像我的第二大脑一样,能记住我生活里的点点滴滴。我随口一问“去年5月我做了什么”,它不仅能精准找到记录,还能帮我回忆起那些差点被遗忘的细节!但这么隐私的东西,用在线服务肯定不放心,必须得在自己电脑上运行才行。现在,机会来啦!有了能全本地部署的deepseek-r1和bge-m3,再加上界面超优雅的Cherry S

文章图片
#人工智能#自然语言处理#算法 +2
QwQ-32B 开源!本地部署+微调教程来了

今天,通义千问开源了推理模型QwQ-32BQwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

文章图片
#算法#深度学习#面试
DeepSeek 接入 Python,一般电脑也能飞速跑,确实可以封神了!

电脑没有大显存GPU的朋友,推荐安装1.5b尺寸,这版尺寸普通电脑无GPU的都能流畅运行,延时几乎在1-2秒,更为关键的是,DeepSeek-r1之所以爆出圈有一个重要原因,小尺寸模型回答质量也很高,即便1.5b如此小的参数尺寸亦如此。大模型在本地搭建,除了能够方便个人知识库管理,详见上一篇介绍,还能提效编程学习,比如Python,Java等,学编程就像学做事的思路和逻辑,挺重要也很有意思。,安装

文章图片
#python#开发语言#transformer +3
带你一步步搭建 DeepSeek + Ollama + Dify,快速部署私有化 AI 助手。

生成答复后意味着 AI 应用的搭建已完成,你可以在日志内查看 LLM 的推理过程。在实际应用中,当你上传内部文档或专业资料后, Dify 的知识库功能可以承担起 RAG 作用,帮助 LLM 基于专业资料提供更有针对性的解答,有效弥补模型训练数据的不足。通过检索相关知识,为模型提供必要的上下文信息,将这些信息融入内容生成过程中,从而提升回答的准确性和专业度。详细说明请参考以下内容。仅需一条命令即可完

文章图片
#python#开发语言#transformer +2
掌握Ollama和Nexa AI的安装与使用,轻松部署大模型

最近这一两周不少公司都已经停止秋招了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。掌握Ollama和Nexa AI的安装与使用,让本地运行AI模型变得轻松。掌握如何在本地机器上安装和使用Ollama与Nexa AI,这两个平台将帮助开发者能够轻松运行和

文章图片
#人工智能#transformer#深度学习 +1
一文详解八款主流大模型推理框架

当前大模型推理平台/引擎生态各具特色,从企业级高并发服务到本地轻量化部署,从国产硬件优化到前沿编译技术探索,每种方案都有其独到优势。选择合适的推理方案不仅需考虑技术指标,更要结合业务场景、硬件资源与未来扩展规划。未来,随着技术的不断进步和产业协作的加深,大模型推理生态将呈现出更加多元、灵活和高效的局面,为各领域在激烈竞争中抢占先机提供强大支撑。

文章图片
#python#transformer#算法 +1
一网打尽:14种预训练语言模型大汇总

本文介绍了预训练语言模型的发展历程,包括EMLo、BERT、GPT等经典模型,也包括在此基础上的一些改进创新。预训练语言模型对于NLP来说非常重要,未来的研究趋势也在让下游任务更加去适配预训练模型,以此来最大程度发挥预训练模型的能力。

文章图片
#语言模型#深度学习#自然语言处理
利用 Transformer 进行端到端的多目标检测及跟踪(附源代码)

现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。01摘要多目标跟踪(MOT)任务的关键挑战是跟踪目标下的时间建模。现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。所以现有的方法缺乏从数据中学习时间变化的能

#transformer#目标检测#深度学习
    共 138 条
  • 1
  • 2
  • 3
  • 14
  • 请选择