logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

23岁门外汉携ChatGPT,攻克60年数学猜想!陶哲轩:我们全走偏了

1968年,埃尔德什和合作者Sárközy、Szemerédi提出了一个猜想:关于原始集的一个特定求和式,存在渐近意义上的明确上界。更关键的不是速度差距,是路线差距。而LLM则走了一条完全不同的路线,它使用了一个在相关数学分支中众所周知、却从未有人想过要应用到这类问题上的公式。在#1196之前,Price和Barreto已经用类似方法在几个较小的问题上取得了进展,陆续引起了一些关注。比如{2, 3

在线教程丨高性能与易部署兼得,DeepSeek-V4-Flash模型参数284B,简单任务可媲美1.6T Pro版模型

对比来看,DeepSeek-V4-Pro 更偏向能力上限的探索,而 DeepSeek-V4-Flash 则在保留较强模型能力的同时,通过更轻量的结构设计与推理优化,在延迟、吞吐以及资源消耗方面都有明显改善。DeepSeek-V4-Pro的参数规模达到 1.6T,在 Agentic Coding 评测中已达到当前开源模型最佳水平,并在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro

日志别再print了!深入对比Python三大日志方案

⚠️ 注意:这里90%的人会踩坑logging模块的%风格格式化是惰性求值的,但如果你写成logger.info(f"Processing {order_id}"),字符串会在调用前就拼接,哪怕日志级别不输出也会造成性能损耗。你打开终端,翻看日志,却发现一片混乱:有的日志带时间戳,有的没有;本文会带你深入对比Python三大日志方案:标准库logging、Loguru和新一代的Logfire,通过

#python#java#数据库 +2
从理论到落地,一文读懂现代AI Agent的完整记忆流水线

还有误差累积,Databricks 2026 年 4 月的研究发现,Agent 会引用之前运行里错误的输出,再以更高的信心复用,没有策展的记忆会把一次性错误固化成永久谎言。三种遗忘机制必须同时工作:基于时间的衰减用指数函数压低更老、更少访问的记忆的检索分数,典型半衰期约 70 天,不删除,只是降低浮现概率;人类记忆不是单一的类型,Agent 记忆也不该是。Zep 的 Graphiti 开创了双时态

#人工智能
1930年的 AI 没见过电脑,居然能写 Python 代码

包揽了GPT-1和GPT-2论文一作,也是GPT-3、GPT-4的核心贡献者,此外他还是多模态模型CLIP的主导者之一,像Whisper、DALL·E也都有他深度参与的身影。晶体管、电视机普及的年代,talkie惊讶值直接陡峭飙升,一柱擎天。更离大谱的是,当团队扔给它一道Python编程题时,这个跨越了将近一百年的过去之灵,竟然写出了它人生中的第一行Python?按团队的路线图,今年夏天,GPT-

#人工智能#python#开发语言
AI Agent 个性化底层:对话记忆与上下文优化逻辑

在最核心的层面,memory 存的是过去的用户交互和上下文信息,让 agent 在时间维度上做出更准确的响应。GraphRAG 把信息组织成相互关联的实体和关系,让跨上下文的多跳推理成为可能,而不只是取回相似的文本片段。但仅靠精确词匹配未必够用,查询可能用了语义相近、但用词不同的表达,结果就是上下文检索不完整,可能引出错误输出或幻觉,语义上接近的查询甚至会拿到完全不同的回应。这就是 GraphRA

#人工智能
DeepSeek 玩转 MoE 并行的底层逻辑

由于DP和ZeRO本来就要在优化器步做一次all-reduce把梯度累加,all-reduce可以拆成reduce-scatter和all-gather,那在reduce-scatter后每一个shard优化器对应的梯度都是对的了,把完成参数更新后,再all-gather一次参数即可,那么原本梯度的all-gather替换成了更新后的参数all-gather,ZeRO-1的通信量和普通 DP一模一

独家 | 《欧盟人工智能法案》:我们的16个关键要点

作者:EU Law翻译:付雯欣校对:赵茹萱本文约6200字,建议阅读12分钟本文我们根据欧盟理事会目前批准的文本,初步列出了我们认为的AI法案的关键要点。关键词:科技、通信媒体、数字经济欧盟理事会最近一致通过了人工智能(AI法案)。这是全球首部全面的人工智能法规,它基于风险规定了在欧盟市场上投放、投入使用和使用人工智能系统(AI系统)的统一规则。该法案最初由欧盟委员会于2021年4月...

#人工智能
独家 | 手把手教你运用深度学习构建视频人脸识别模型(Python实现)

作者:Faizan Shaikh 翻译:季洋校对:王雨桐本文约2700字,建议阅读10+分钟。本文将展示如何使用开源工具完成一个人脸识别的算法。 引言“计算机视觉和机器学...

Graph图和Geometric Deep Learning几何深度学习的Foundation Models基础模型

本文约10000字,建议阅读10+分钟本文为你介绍图 FM及其使用的示例。语言、视觉和音频的Foundation Models基础模型已成为 2024 年机器学习的主要研究主题之一,而针对图结构数据的 FMs 则有些落后。在这篇文章中,我们认为图 FM 的时代已经开始,并提供了一些如何在今天使用它们的示例。图形和几何深度学习中新兴基础模型的时间线。什么是图形基础模型以及如何构建它们?由于对于什么.

#深度学习#人工智能
    共 1209 条
  • 1
  • 2
  • 3
  • 121
  • 请选择