谷歌DeepMind的AlphaCode 2凭借其先进的人工智能重塑了竞争性编程,以独特高效的方法应对复杂挑战。
Google DeepMind上周发布了AlphaCode 2,这是对AlphaCode的更新,同时还推出了Gemini。这个版本在竞赛编程方面提高了解决问题的能力。去年AlphaCode发布时,它被与Tabnine、Codex和Copilot相比较。但是通过这次更新,AlphaCode显然已经遥遥领先。
AlphaCode 2采用一套“策略模型”来解决问题,这些模型为每个问题生成各种代码样本。然后,它淘汰与问题描述不符的代码样本。AlphaCode 2采用了多模态方法,集成了来自不同来源的数据,包括网页文档、书籍、编码资源和多媒体内容。
人们将这种方法与OpenAI的神秘Q*相比较。据传,它能够解决以前从未见过的数学问题。这项技术被猜测是在解决基本数学问题领域的进步,而这一问题对于现有的AI模型来说是一项挑战。
现在,尽管Q*只是一个猜想,但AlphaCode在平均水平上比85%的竞争者表现更好。在12个编码竞赛中,与8000多名参与者一起,它能够在10次尝试内解决43%的问题。而最初AlphaCode的成功率为25%,现在它的成功率翻了一番。
然而,像其他AI模型一样,AlphaCode 2也有其局限性。白皮书指出,AlphaCode 2涉及大量的试错过程,大规模运作成本高,且极大地依赖于其丢弃明显不适当代码样本的能力。白皮书建议,升级到更先进版本的Gemini,例如Gemini Ultra,可能会解决其中一些问题。
AlphaCode 2的独特之处
AlphaCode 2技术报告展示了显著的改进。在Gemini模型的增强下,AlphaCode 2解决的问题增加了1.7倍,并且在竞赛编程中超过了85%的参与者。其架构包括强大的语言模型、用于代码生成的策略模型、用于多样性采样的机制,及用于过滤和聚类代码样本的系统。
为减少重复,一个聚类算法将“语义相似”的代码样本分组。最后一步是AlphaCode 2内的评分模型,它从最大的10个代码样本聚类中识别出最合适的解决方案,形成AlphaCode 2对问题的回应。
微调过程涉及使用GOLD训练目标的两个阶段。系统为每个问题生成大量的代码样本,优先选择C++以保证质量。通过聚类和评分模型帮助选择最优解。
在Codeforces上测试,AlphaCode 2显示出显著的性能提升。然而,系统仍然面临试错和运营成本的挑战,这标志着AI在解决复杂编程问题方面的重大进步。
与其他代码生成器相比,AlphaCode 2展示了在竞争性编程方面的独特优势,而与其他同类产品不同的是,由OpenAI Codex驱动的GitHub Copilot做为一个更广泛的编码助手。由OpenAI开发的Codex是一个特别擅长代码生成的AI系统,因为它是在大量公开源代码上进行训练的。
在这一新兴领域,其他一些值得注意的工具,比如EleutherAI的Llemma和Meta的Code Llama也带来了它们独特的优势。Llemma拥有340亿参数模型,在数学方面专业化,甚至比Google的Minerva表现更好。Code Llama基于Llama 2,专注于支持开源的AI编码助手开发,为创建企业特定的AI工具提供了独特优势。
AlphaCode 2与其他AI编码工具的做法不同。它使用机器学习、代码采样和解决竞争性编程问题的策略。这些特点是为复杂编码问题量身定制的。其他工具,如GitHub Copilot和EleutherAI的Llemma则专注于一般编码帮助和数学问题。
激烈的竞争
对于OpenAI来说,Q*代表着AI在解决它以前未见过的数学问题上的重大进步。这项突破涉及到Sutskever的工作,促使其创建了具有更强解决问题能力的模型。
然而,这项技术的快速进步引起了OpenAI内部对进步速度和需要为这种强大的AI模型建立适当保障的关注。
尽管Google DeepMind的AlphaCode 2和被推测的Q*都代表着AI的重大进步,但它们目前还没有广泛面向公众开放。