Cyber Weekly #32

赛博周刊 (Cyber Weekly），每周发布，欢迎关注、点赞、收藏、评论。

老A的AI实验室

746人浏览 · 2024-11-18 14:48:10

老A的AI实验室 · 2024-11-18 14:48:10 发布

赛博·新闻

在2024年百度世界大会上，百度创始人李彦宏发布了两项重大的AI技术：检索增强的文生图技术（iRAG）和无代码工具「秒哒」。其中，文心iRAG旨在解决大模型在图片生成上的幻觉问题，通过结合百度搜索的亿级图片资源和基础模型能力，生成超真实的图片，显著提升了AI生成图片的可用性，降低了品牌宣传和创作成本。而「秒哒」则是一款无代码编程工具，它允许用户通过自然语言交互构建应用，具备多智能体协作和多工具调用的特点，使得无需编写代码即可实现任意想法，极大地提升了工作效率。此外，百度还在会上发布了首款AI眼镜「小度AI眼镜」，这款眼镜配备了1600万像素超广角摄像头、自研AI防抖算法和4麦克风阵列设计，支持56小时超长待机和快速充电，重量仅45克，并提供多种款式选择。

2、阿里云开源Qwen2.5-Coder模型

阿里云通义大模型团队于11月12日宣布开源其最新代码模型Qwen2.5-Coder系列。这一系列包括0.5B、1.5B、3B、7B、14B和32B共6种不同尺寸的模型，每个尺寸都提供了Base和Instruct两种模型，以适应不同的应用场景和需求。这些模型在代码生成、推理和修复等核心任务上展现出业界领先的性能。其中，32B尺寸的旗舰模型Qwen2.5-Coder-32B-Instruct在多个代码生成基准评测中刷新了开源模型的记录，并在某些方面超越了闭源模型GPT-4o，实现了开源模型对闭源模型的反超。Qwen2.5-Coder基于Qwen2.5基础大模型，通过大量数据训练，显著提升了AI编程的性能和效率，使得即使是编程初学者也能够轻松生成网站、数据图表、简历和游戏等复杂应用。

3、Google DeepMind开源AlphaFold3

谷歌开源AlphaFold3模型的消息，这是一个获得诺贝尔奖的AI模型，能够预测所有生命分子的相互作用，包括蛋白质、DNA、RNA等。AlphaFold3的开源为生物医药、生命科学等领域的科学家提供了强大的研究工具，有助于推动药物发现和疾病治疗。此前，由于AlphaFold3没有开源，谷歌受到了一些争议，但DeepMind承诺在半年内推出开源版本，并已兑现承诺。模型权重需要单独申请，由DeepMind决定是否同意。AlphaFold3在架构和训练过程上进行了改进，展现出了惊人的泛化能力，即使在训练数据匮乏的领域也能表现出色。

4、腾讯元宝推出2.0版本

11月14日，腾讯混元公众号发文，宣布腾讯元宝推出2.0版本。相较于上一代，2.0版本在以下方面迎来一下更新，另外，混元模型的架构也迎来升级，基于新一代大模型「混元turbo」，其性能大幅提升，训练和推理效率提升一倍，回答更快更准。

对话列表焕新：历史使用资产沉淀，您可以更轻松地查找历史对话和使用过的智能体。无论是回顾信息还是继续未完的交流，都更加便捷。

AI应用专属板块：便捷、高效的AI应用集结专区。精选AI搜索、AI阅读、创意绘画、灵感图库、AI美照五大应用，多维度满足搜、读、写、画创作需求。

AI搜索：除微信公众号外，升级整合微信视频号、QQ音乐等特色信息资源，提供更加智能、便捷的搜索服务，随时随地想搜就搜。

5、月之暗面发布数学推理模型k0-math

在KimiChat全面开放一周年之际，公司发布了新一代数学推理模型k0-math，旨在对标OpenAIo1系列。基准测试显示，k0-math在多个数学基准测试中成绩超过o1-mini和o1-preview模型。杨植麟强调，数学是最适合锻炼AI思考能力的场景，并展示了k0-math解答数学题的过程。尽管k0-math在简单问题上存在过度思考的局限，但公司计划在未来几周内将其和更强大的Kimi探索版陆续上线，以帮助用户解决更具挑战性的数学和搜索调研任务。杨植麟还回应了关于AI创业公司被收购、人才流失、产品聚焦、留存率、深层推理、多模态能力、Kimi与豆包的竞争、AI超级应用的出现以及大模型预训练遭遇瓶颈等问题。

6、腾讯发布AI智能工作台ima

11月15日，腾讯正式发布AI智能工作台ima.copilot（简称ima）。ima旨在通过整合全网信息和微信公众号文章，为用户提供高效、个性化的信息检索和知识管理服务。ima的特点包括：1)综合检索公众号在内的全网信源，筛选最佳内容；2)边问边看，边搜边记，帮助用户轻松弄懂知识点；3)支持多种语言翻译，消化国内外资料文献；4)保存所有知识点到个人知识库，构建个人“美发图书馆”；5)作为编辑工具，方便用户生成笔记、编辑和扩写内容。ima由腾讯混元大模型提供技术支持，现已上线Windows版本，旨在帮助用户提升工作效率。

赛博·洞见

1、语音UI（VUI）很糟糕

Shubham Jain在其文章中对语音界面作为用户交互的主要方式提出了质疑。他指出，尽管电影如《她》让我们相信语音是终极用户界面，但实际上语音界面存在多个问题。首先，语音无法有效表达抽象思维，这对于写作和研究等活动至关重要。其次，语音在执行任务时往往使事情变得更复杂而非更简单，例如在没有屏幕反馈的情况下，用户很难通过语音解决实际的模糊性问题。此外，语音界面侵犯隐私，许多人在公共场合或与他人在一起时不愿意使用。作者还提到，图形用户界面(GUI)有助于我们理解软件的局限性，而语音则做不到这一点。最后，作者认为，即使AI能够完美理解人类语音且无延迟，我们也不会达到一个完全由语音界面主导的未来。

2、AI Coding能撑起一个多大的叙事？

文章讨论了AI编程（AI Coding）的发展前景，将其自动化程度分为五个等级，从辅助程序员的工具（L1）到完全自动化的AI接管App工厂中的多个职能（L5）。作者通过分析AI Coding的三种方法和市场现状，探讨了AI Copilots、AI Agents和代码模型公司的发展路径。文章还提出了三个开放问题，包括如何增强上下文感知能力、如何提升AI Agent在端到端任务中的表现，以及构建代码模型是否能带来长期差异化的产品。最后，作者认为AI Coding是一个巨大的机遇，尽管面临技术挑战，但市场上升空间无限。AI Coding的发展将解锁高保证、可靠的AI，进行代码生成和重塑工作流程。

3、OpenAI官方发布学生写作指南：12条建议教你用好ChatGPT

OpenAI发布了一份学生写作指南，提供12条建议，帮助学生在学术写作过程中正确使用ChatGPT。这些建议被重新组织为五个阶段：前期调研、框架构建、论证深化、反馈改进和调整格式。文章强调，AI应成为思维的催化剂，而非思考的替代品，鼓励学生保持独立思考的能力，并找到与AI共舞的最佳方式。

4、一文深度了解Agent智能体以及认知架构

文章首先对Agent智能体进行了定义，强调智能体不仅仅是技术定义，还涉及系统如何“思考和决策”。智能体的设计需要考虑认知架构，即智能体的“大脑”，决定了它们如何接收信息、执行任务和回应。文章讨论了智能体特性的概念，将其视为一个光谱，不同的系统根据其依赖LLM决定行为的程度而具有不同的智能体特性。接着，文章探讨了认知架构的概念，解释了不同自主性级别的智能体可能采用的不同认知架构，并强调了为特定任务选择合适认知架构的重要性。最后，文章讨论了智能体规划的问题，指出规划和推理是智能体可靠性的关键，并探讨了改善智能体规划能力的策略。

5、微软AICEO苏莱曼清华大学演讲：AI的成功最终取决于实际生活中的应用，始终与真实生活息息相关

苏莱曼在演讲中提出了三个核心观点：AI的目标应是服务人类并产生积极社会影响；AI应被用于解决全球面临的紧迫社会挑战；负责任地发展AI的重要性。他强调AI的成功取决于其在实际生活中的应用，并与真实生活紧密相关。苏莱曼还讨论了技术浪潮带来的风险，并强调了在AI、生物技术和量子计算等领域，我们正站在人类历史的一个关键节点上。他提到，AI已经渗透到生活的方方面面，预示着一切都将发生变革，我们必须认真思考和减轻极端情况的影响。苏莱曼还介绍了微软在AI领域的使命和项目，包括Copilot和对抗气候变化的努力，并强调了建立信任和负责任的AI治理的重要性。

6、Anthropic CEO 5个小时访谈量子速读版本

Anthropic CEO接受了Lex Fridman长达五个小时的访谈，里面的信息非常丰富老哥真的实诚，比Sam和稀泥强多了。访谈内容包括AGI何时到来、扩展假设(Scaling Hypothesis)的定义以及是否结束、Anthropic的产品策、LLM可解释性研究、AI发展时间线的介绍和预测等。原始视频：https://www.youtube.com/watch?v=ugvHCXCOmm4。

7、语音AI革命：未来，消费者更可能倾向于与AI沟通，而非人工客服

文章指出，尽管电话客服市场规模超过50亿美元，但传统电话客服系统效率低下，常受企业和消费者诟病。过去一年，语音AI在研究、基础设施和应用方面取得显著进展，推动了语音应用开发的热潮。语音到语音模型无需音频转录即可处理语音任务，实现了低延迟、更拟人等突破性进展。企业倾向于从低风险场景开始尝试语音AI，但高价值场景对可靠性要求更高。语音AI开发者更关注业务逻辑和客户体验，而非底层基础设施和模型管理。许多公司推出平台和套件，简化了语音智能体的构建、测试、部署和监控。报告认为，目前最有机会的应用场景包括转录、呼入、呼出与筛选、培训和谈判等。文章强调，语音AI不仅仅是对软件用户界面的升级，它更将彻底改变企业与客户的沟通方式，开启商业通讯的新纪元。

8、爆火AI编程工具Bolt，数据公开：4周ARR400万，周活10万

文章介绍了AI编程工具Bolt的快速增长和市场表现。Bolt通过无代码方式支持用户快速生成并部署全栈应用，极大降低了应用开发成本并简化了开发流程。Bolt背后的技术包括Web Containers和Claude 3.5 Sonnet，前者使Node.js能在浏览器中运行，后者提供了强大的代码生成能力。Bolt的成功展示了AI在编程领域的潜力，为不同背景的开发者提供了创新的开发体验。

9、独家专访李飞飞爱徒，斯坦福AI博士，a16z投资千万美元，AI视频月收入飞涨200%

文章专访了Hedra的联合创始人兼CEO Michael，他曾在斯坦福大学攻读博士学位，专注于物理世界建模与具身智能的交叉研究。Hedra致力于开发以角色为中心的基础模型，打造引人入胜的AI生成视频内容。Hedra平台用户生成的视频数量达数百万，部分视频浏览量超过300万次。公司已从a16z筹集了超千万美元的资金，并完成了由Index Ventures领投的种子轮。Michael分享了他从学术研究到创业实践的心路历程，以及Hedra在AI驱动的视频生成领域的创新和对未来视频创作的愿景。Hedra也在积极招聘，寻求全栈前端工程师和研究科学家，专注于下一代实时视频基础模型的开发。

赛博·工具

1、namebeta

输入你想要的域名，各方比价。

2、H5-Dooring

让H5制作像搭积木一样简单，轻松搭建H5页面。

3、聚宝盆3D打印导航

优质的3D打印资源、工具与服务。

赛博·资源

1、3.5M Unique AI Art Prompts

该网站包含了350万条Midjourney提示词数据，按照提示词的关联程度，生成了一张可视化图。

2、Podcastfyai：开源版本NotebookLM

它使用GenAI将多模式内容（文本、图像）转换为引人入胜的多语言音频对话。输入内容包括网站、PDF、YouTube视频以及图像。Podcastfy专注于从多种多模式源中以编程方式和定制方式生成引人入胜的对话文本和音频，从而实现定制和规模化。

3、Haikei海报壁纸

生成随机多样式不同尺寸的壁纸海报。

广州城市开发者社区

欢迎加入我们的广州开发者社区，与优秀的开发者共同成长！

更多推荐

从训诂学到人工智能：一场两千年的相关性困局，与因果性的破局时刻

广州城市开发者社区

Trae实现Web UI自动化测试

广州城市开发者社区

Selenium自动化测试常见的异常处理

本文深入探讨了Selenium自动化测试中的异常处理技术。首先分析了异常处理的重要性，指出其能保障测试稳定性和可靠性。接着详细介绍了Selenium中的主要异常类型，包括WebDriver异常、元素交互异常和时间相关异常等。文章重点讲解了三种异常处理方法：使用try-catch捕获异常、日志记录和重试机制，并通过两个典型案例（处理NoSuchElementException和TimeoutExce