admin管理员组

文章数量:1444228

  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

最近一周AI科技圈又发生了啥新鲜事?

OpenAI 推出 ChatGPT 编程智能体 Codex

OpenAI 在 ChatGPT 中引入了 Codex 编程智能体,一款云端软件工程智能体,能够并行处理多项任务,包括编写功能代码、修复错误、提交拉取请求等。Codex 基于优化后的 codex-1 模型,通过强化学习训练,生成的代码风格高度符合人类习惯。目前,ChatGPT Pro、Team 和 Enterprise 用户已可使用,未来 Plus 和 Edu 用户也将上线。Codex 的任务在独立云沙盒环境中运行,支持读写文件和运行测试框架等操作,用户可通过 ChatGPT 侧边栏访问并实时查看进度。此外,Codex 提供免费试用期

https://openai/index/introducing-codex/

MiniMax Speech 02:AI语音合成的突破,多语言与个性化并驾齐驱

MiniMax Speech 02凭借其卓越的多语言支持能力和个性化语音合成技术,在全球权威语音评测榜单中超越OpenAI、ElevenLabs等顶尖模型,位列第一。该模型基于AR Transformer架构,具备Zero-Shot能力,可实现32种语言、不同口音及情绪的高质量语音合成,且价格更具竞争力。其核心创新在于“会学习的音色提取器”,能够将任意音频片段转化为条件向量,实现音色、音调和风格的精准捕捉,为用户提供媲美真人的语音体验。此外,MiniMax Speech 02还支持跨语言输出、基于语音描述生成音色等功能,进一步拓展了个性化语音的应用边界

https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report

腾讯混元图像2.0发布,开启毫秒级AI图像生成时代

腾讯混元图像2.0模型正式发布,其生图速度实现毫秒级响应,显著快于行业领先模型,同时生成图像质量大幅提升,真实感强、细节丰富。在GenEval评估基准上,准确率超95%。此外,该模型还推出实时绘画板功能,支持多图融合与实时上色,助力专业创作。腾讯混元原生多模态图像生成大模型也在研发中,将进一步提升多轮图像生成与实时交互体验

https://mp.weixin.qq/s/NEg5Wop9EPw3Z6Lx5ik7Mg

通义万相VACE开源:一款模型实现多种视频编辑功能

通义万相VACE开源,其Wan2.1-VACE-1.3B支持480P分辨率,Wan2.1-VACE-14B支持480P和720P分辨率。VACE通过多模态输入机制,集文本、图像、视频、Mask和控制信号于一体,可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等任务,无需频繁切换模型或工具。VACE支持多种单任务能力自由组合,简化创作流程,拓展AI视频生成的创意边界。此外,VACE采用上下文适配器微调方案训练,相比1.3B preview版本,关键指标明显提升。开发者可从GitHub等平台下载VACE模型进行二次开发

https://github/Wan-Video/Wan2.1

Qwen推出“Deep Research”

Qwen团队近日发布了“Deep Research”智能助理系统,该系统能够快速规划复杂研究任务,综合海量在线信息,生成条理清晰且数据可信的研究报告。用户仅需提供一句提示,系统即可开启研究流程,通过多步骤搜索和分析,最终输出详尽报告,每条结论均有引用来源。Deep Research基于Qwen模型,目前已在QwenChat上免费开放体验

https://mp.weixin.qq/s/bmRL6zxLGZoxd8MNg1cmyA

问小白推出学术搜索功能,基于谷歌学术数据库助力权威检索

问小白近日上线了备受期待的学术搜索功能,该功能依托谷歌学术数据库,能够检索海量权威文献数据。其亮点包括智能检索能力,可将用户问题转化为中英检索词,提高检索质量;还增加了相关性模型,确保文献与用户提问高度相关。此外,回答基于文献内容引用,明确标注信息来源,并展示更多文献结果,包括标题、出版年份、被引用次数等,用户可直接点击跳转查看原文

https://mp.weixin.qq/s/M8i3RX8dCA7FN3HnkCQFcg

阶跃星辰开源 48 亿参数 3D 大模型 Step1X-3D

阶跃星辰近日正式发布并开源了 3D 大模型 Step1X-3D,该模型参数量达 48 亿,采用先进的 3D 原生架构,可生成高保真、可控的 3D 内容。Step1X-3D 基于 200 万高质量训练样本库,通过增强型网格 - SDF 转换技术等方法,提升了水密几何转换成功率,增强了泛化能力与细节捕捉力。其几何生成采用混合 VAE - DiT 架构,精准捕捉物体几何细节;纹理生成基于 SD - XL 模型深度定制,实现多视图一致的纹理效果。此外,该模型与主流 2D 生成模型保持高度一致性,可无缝引入 2D 控制技术,提升 3D 内容生成的可控性与易用性

https://github/stepfun-ai/Step1X-3D

维基百科发布新 AI 战略:用 AI 提升志愿者效率,而非取代人工

维基百科运营方维基媒体基金会近日公布其 AI 战略,明确将人工智能定位为辅助工具,旨在提升志愿者的时间利用效率,而非取代人工编辑。基金会强调志愿者社区是维基百科成功的核心因素,AI 技术将专注于生成式 AI 擅长的领域,如自动化知识完整性支持工作、提高信息可发现性、自动翻译和改编常见主题以及扩大新志愿者入职培训规模,以帮助志愿者更高效地实现目标

https://www.ithome/0/852/347.htm

DeepSeek发布技术论文:探讨大语言模型的硬件协同设计与优化

DeepSeek团队发布了一篇关于DeepSeek-V3的技术论文,深入探讨了大语言模型(LLM)在硬件架构设计中的挑战与优化策略。论文指出,DeepSeek-V3在2048块NVIDIA H800 GPU集群上训练,通过硬件感知模型协同设计,实现了经济高效的大规模训练与推理。研究重点包括硬件驱动的模型设计、硬件与模型的相互依赖关系,以及未来硬件开发的方向。DeepSeek-V3采用了多头潜在注意力(MLA)架构和混合专家(MoE)架构,显著降低了内存消耗和计算成本,同时引入了FP8混合精度训练技术,提升了推理速度。此外,还提出了针对未来硬件架构设计的前瞻性建议,包括鲁棒性挑战、CPU瓶颈与互联限制、智能网络架构、内存语义通信与排序、网络中计算与压缩机制,以及以内存为中心的架构创新等方向

https://arxiv/pdf/2505.09343

本文标签: 智能OpenAIChatGptCodex