OpenAI最强竞对Mistral AI最新万字访谈,吐血整理干货十足

阅读量:93
2024-04-08
OpenAI最强竞对Mistral AI最新万字访谈,吐血整理干货十足 (https://www.qianyan.tech/) AI 第1张
Z Recommendation:

Mistral AI是一家欧洲开源大模型领导者,由前Meta Platforms和Google DeepMind的员工在2023年4月创立。最新发布的旗舰大语言模型Mistral Large,在多项基准测评任务中展现了卓越的性能,也被视为追赶OpenAI 的强有力对手。

本期深度文章编译自Mistral AI CEO Arthur 与著名风险投资人Elad Gil在2024年3月的对谈。在这期深度访谈中,Arthur向我们揭露了:
  • Mistral 的创办动机,选择小模型Open Core模式的战略思考
  • 提升模型推理能力的潜在路径
  • 长上下文窗口的技术价值和技术瓶颈
  • 小模型的性能极限及限制因素
  • Transformer 架构大统一亦或是出现新型架构的判断
  • Mistral 如何应对GPU 紧缺,以及对未来算力需求的估计
  • 企业级应用大模型的共性场景,进一步提升应用渗透率的卡点
  • 大模型的全球和区域化演变思考
信息量非常大,推荐所有大模型从业者及投资人阅读,以下是精心校对后的文字记录,Enjoy!:)

Mistral 的诞生

Elad:从背景来看,你获得了机器学习博士学位,曾是 DeepMind 的研究科学家,然后你和一些来自谷歌和Meta Llama项目的同事一起创办了这家公司。Mistral采取Open Core(ZP注:开放核心,以Open Source开源为基础的商业产品)的方式,我认为这非常有趣,我们稍后可以讨论一下。但我想先问一下,创办Mistral的动机是什么?你们是如何决定这样做的?公司最初的形式是如何的?

Arthur:我认为我、Guillaume和Timothée(其他两位Mistral联合创始人)一直都在考虑这个问题。我当时在DeepMind,他们在Meta,我想我们一直在等待一个时机,而这个时机在某种程度上是随着GPT的到来而来了。所以我们意识到我们有机会迅速创建一个公司,可以从第一天就雇佣一个好团队,并尝试做一些加速跑,因为我们不是第一个开始的。我们就是这样起步的。

Elad: 我想现场观众可能都已经非常了解Mistral的业务。那么为了观看直播的观众,你能简要解释一下你们现有的产品、平台以及各种组件吗?

Arthur: 当然可以。Mistral实际上是一家构建大模型的公司。我们是开源模型领域的领先者。公司从成立就开始开发文本生成模型,文生图模型实际上是今天所有生成式AI应用的基础模块。虽然我们还没有进行图像生成相关的开发,但这显然是接下来某个阶段会做的。

我们的差异化之处在于,我们采取了Open Core的方式,在去年十二月发布了Mistral 7B和Mixtral 8x7B模型,并在这些开源模型的基础上构建了一个平台,也向平台中增加了在去年十二月和今年二月推出的商用模型。所以我们在开发开源模型的同时,在为企业构建一个可移植的平台,平台的重点是开发者、并为开发者构建工具。

Elad: 从创立公司到推出7B模型,你们花了多长时间?

Arthur: 花了大约四个月的时间。

Elad: 这太了不起了。我认为一个非常显著的一点是,Mistral在如此快的速度下推出了第一个产品,而人们也迅速采用了它。在7B突然出现之后,我认为人们突然意识到了自己在拥有小型模型的同时可以拥有优异的性能。推理时间(inference time)和得到第一个token的时间都非常快而便宜,这在高吞吐量的情况下是非常重要的。你是如何如此迅速地构建出这样的东西的?或者说你是如何让团队在如此快地专注于单一的目标的?

Arthur: 我们思考了什么是领域中缺少的东西,然后意识到小型模型实际上非常吸引人。当时我们看到了一个在Llama的基础上建立社区,但Llama 7B模型还不够好。因此我们意识到我们可以做得更好。我们可以大大改进一个7B大小的模型。这就是我们初登场时所瞄准的甜蜜点。我们不得不从零开始构建整个堆栈:从获取数据,到构建训练代码,再到获取计算资源。这是一个不小的挑战,因为在这四个月里我们还在起步。所以我们从零GPU开始,到在500个GPU上进行了7B的训练。我想我们之所以进展迅速,是因为团队非常有动力,所以在这四个月里没有多少假期。

一般来说,成功并迅速前进的AI团队通常是由四到五个人组成的。而做出了发明的AI团队一直都是这样的规模。。因此,我们正试图建立一个组织,让五个人组成一个小队来处理数据、进行预训练,到目前为止,效果还不错。
OpenAI最强竞对Mistral AI最新万字访谈,吐血整理干货十足 (https://www.qianyan.tech/) AI 第2张
下一步计划
Elad: 关于下一步的发展计划,你们有什么可以分享的吗?

Arthur: 我们有新的开源模型,既有通用模型,也有针对特定垂直领域的模型。这些很快就会推出。我们正在为平台引入一些新的微调功能,我们还推出了一个名为Le Chat的聊天助手。目前Le Chat只使用模型,所以它还比较粗糙。有点像ChatGPT v0版本。我们正在积极建构数据连接器和丰富它的方法,让它成为对企业有吸引力的解决方案。

Elad: 你们计划专注于哪些垂直领域?

Arthur: 我想我们首先关注了金融服务,因为那里的成熟度最高。我们有两个GTM(go-to-market):一个是从金融服务开始的企业,因为它们已经足够成熟;还有数字原生代(digital native),比如正在建立AI公司的开发者或者将AI引入以前不涉足AI的公司的开发者。这是我们正在与之交流的两个GTM。第一个GTM通过与云服务提供商的一些合作来实现,因为事实证明他们在这方面掌控着市场。然后通过我们的平台,我们直接与开发者交流。

Elad: 在云端方面,你们最近宣布的一个合作伙伴关系是与微软和Azure。关于这个合作伙伴关系或者它给你们提供的企业级机会,你有什么可以分享的吗?

Arthur: 是的,与Azure的合作为我们开拓了新的客户。很多企业其实很难轻松地使用第三方 SaaS 提供商,因为你需要通过采购、风险评估等阶段。但是如果通过云服务以第三方提供商的身份入局,你实际上会得到加速。所以当我们在Azure上发布了Mistral Large,我们很快就获得了大约一千个客户。你需要适应企业使用云的这个事实,并且他们不太愿意轻易引入新平台。所以至少在起步阶段,你需要借助云这个途径。

未来技术发展方向

Elad: 现在很多行业关注的另一个方面是扩大模型规模,实现更大、更高性能的版本。你们对在未来六个月或一年内的模型规模有何计划?或者以后计划拥有非常大的模型吗?

Arthur: 我们首先关注了效率,比当前更有效率地训练模型。当我们实现了这种提效,我们就开始扩大规模,这就是我们进行了另一轮融资以及开始增加我们拥有的计算量的原因。所以我们可以期待新的模型会更加强大,因为我们正在投入更多的计算资源,可能会有一些规模稍大的模型,因为当你增加计算资源时,你就需要增加模型的容量。但对我们来说仍然非常重要的是保证推理的超高效性,以及生产非常压缩的模型。所以我们将继续推出有这些特质的模型,尤其是针对开源世界。

Elad: 有人指出给我,我很想听听你的看法,就是当模型内部达到某些能力时,你可以加快构建下一个模型的速度,因为你可以使用例如 GPT-4来进行RLHF (基于AI反馈的强化学习),或生成合成数据,或进行其他加速工作比如数据标记等等,在某些情况下可以实现超越人类的表现。你如何考虑使用模型来相互加速?这是否实际上加快了每个后续模型发布的时间?

Arthur: 我认为是的。一般来说,两年前,RLHF(基于人类反馈的强化学习)是非常重要的。但是现在RLHF实际上已经不那么重要了,因为模型变得更好了,它们有时候已经足够自我监督了。而且我们已经注意到,随着我们的规模扩大,这一点确实在改善。这意味着需要人类注释的部分成本实际上在降低。这也降低了准入的门槛。

Elad: 另一个相关的领域是推理能力(reasoning)。很多人觉得随着模型的扩大,它们自然会获得推理能力。而还有其他的方式和新成立的公司完全专注于这些模型的推理方面。你如何看待这个问题?你们是否将为推理能力训练子模型,还是认为扩大现有模型就可以实现推理能力?或者两者的结合?

Arthur: 目前来看,提高推理的唯一经过验证的方法就是在更大的数据上训练模型,并使模型其变得更大。显然,你还可以通过构建一个自动循环(auto loop),在其中加入新的函数调用(function calling)、添加数据,让模型能够推理出更多实际的东西,而不是凭空想象。因此,我想我们并不自诩有推理秘方,但我们已经通过关注数据,制作出了非常擅长推理的模型。我们很擅长在数据中使用数学。因此,这是提高推理能力的好方法。改进推理的方法有很多。代码也有帮助,所以没有什么神奇的秘诀,但只要专注于细微之处,就能让它发挥作用。

Elad: 是的,我问这个问题的原因之一是,我觉得在AI的发展过程中我们看到了几种不同的做法。一种是开发基于Transformer架构的模型并扩大它们的规模。另一种则更多类似于AlphaGo下围棋和打扑克这些博弈相关的AI,通过自我对弈来得到新的策略或新的能力,在某种程度上也得到了推理的能力。我知道在某些领域中,这样做可能在模型训练中是非常自然的。编程领域就是一个例子。还有其他一些领域也有实际的标准让你可以进行测试。所以我不知道你们是否在考虑类似的东西,或者在你们看来这是否重要。

Arthur: Guillaume和Timothée曾在Meta做过用LLM进行定理证明的工作。这与使用LLM作为推理模块(reasoning brick)然后构建一个自动循环的方法是非常相关的,这个自动循环中涉及采样、蒙特卡洛研究等等。我想这其中的阻力有一个就是模型的延迟非常高,而如果你想要大量采样,你就需要让模型变得更小。所以这与效率有很紧密的关系。随着我们提高效率,也随着硬件容量的增加,我们才能够更多地探索和采样。而这样通过自动循环开发是提高推理能力的一种好方法。

Elad: 另一件更多人正在谈论或考虑的事情是记忆(memory),和对于智能体(agent)在不同的行动(action)或链接(chaining)事物或其他事务中对状态(state)能够保持更长期注意力的能力。你们是否计划近期会采取开发智能体的路线?还是更多聚焦于应用场景广泛的核心API上?

Arthur: 这就是我们开始使用函数调用来做的:函数调用是创建能够存储状态的智能体的好方法。对于记忆,比如对会话的记忆,基本上在就是中间件(middleware)部分引入一些简单的函数,然后给模型使用,这样它就可以用来更新记忆和表征(representation)。所以函数调用是可以用来创建复杂智能体的一个多功能工具。做智能体很难,做出来之后评估(evaluate)也很难。所以我认为这会是一个最大的挑战。如何做一个真正有用的智能体、如何评估它们并使它们通过反馈而更好地工作?这是我们一个想在产品方面解决的挑战。

Elad: 最近很多人都在谈论的还有一个是上下文窗口(context window)。举个例子,我知道最近有一些生物领域的模型,如果增加上下文窗口,就可以得到更好的蛋白质折叠或者其他更好的结果。所以上下文长度确实很重要。我想Gemini推出了一个百万级别甚至可以扩展到几百万级别的上下文窗口,然后Magic一段时间前就已经达到了500万的上下文窗口。你认为长窗口有多重要?是否取代了其他方法,比如RAG(检索增强生成)或微调(fine tuning)?这些方法能够同时使用吗?

Arthur: 长上下文窗口并不能取代微调,因为微调的目的非常不同,就是为模型加入你的偏好,并且基本上是为模型演示这个任务要怎么做。另一方面,长上下文窗口简化了RAG,因为你可以向上下文里面加入更多的信息。所以我们从用户那里听到的是,这会上瘾:一旦开始使用具有更大上下文窗口的模型,你就回不去了。所以这确实是我们想要尝试改进和扩展的东西。有一些技术可以实现这一点。在基础设施方面这实际上是一个相当大的挑战,因为这样需要处理非常大的注意力矩阵(attention matrices),但也是有办法解决的。

Elad: 我明白你的意思了。基本上就是随着上下文窗口越来越大,在RAM或GPU上的空间会告急?或者是其他什么情况?

Arthur: 是的,为了处理大矩阵,需要重新考虑分片(sharding)和通信(communication)方面的很多技术。这是有代价的,这样质量提升了,但速度就会变慢。

Elad: 你认为什么时候这些模型会在大多数白领任务上都做得比人类更好?你认为这是两年之后、五年之后,还是十年之后?

Arthur: 我想这取决于做的是什么任务。模型实际上已经在一些任务上做得更好了。所以我预计这个趋势的发展速度会比较快。很难说一个日期,但我会说三年后将会有很大不同,特别是如果我们找到一种方法部署智能体并对其进行评估、让它们鲁棒性和可靠性更高。

Elad: 那么,什么时候能取代Figma的首席执行官呢?不,我只是开玩笑。[笑] 只是开玩笑,迪伦,请别赶我们走。我想现在人们正在开发很多不同的基础模型,显然对于LLM的关注度很高,还有对于做图像生成的扩散模型(diffusion models)的关注度。虽然人们似乎越来越倾向于图像和基于Transformer架构的图像和模型生成。在你看来,有哪些应该有基础模型的地方还没有人开发基础模型?

Arthur: 我会说我们在机器人领域看到了一些模型,但我认为都还在非常早期的阶段。音频方面的有了,视频方面也正在被开发。但我认为还没有能够执行行动(action)或者能很好地执行行动的模型,所以这方面可以有更多的进展。但总的来说,我期待所有这些模型都会向着类似的架构收敛,并且随着时间的推移,最终形成联合训练(joint training)。

Elad: 那么你认为最终一切模型都会是基于Transformer架构的吗?

Arthur: Transformer架构是表示token或信息之间关联的一种很好的方式,最终所有的模型都是什么架构实际上并不重要,但Transformer似乎够用了,它足够捕捉我们想要捕捉的大部分东西,而且我们知道如何有效训练它,所以我们可以有效地由文本向图像传递信息和做其他的事情。所以这就是为什么我认为它很难被取代。

Elad: 你认为Transformer架构也适用于硬科学吗?如果你试图做,比如说物理模拟、材料科学、纯数学这些。

Arthur: 我不指望仅通过下一个token预测(next token prediction)就能解决这个问题。这确实需要用到外循环(Outer Loop),并且还需要想出一种让模型与模拟器进行交互的方法,因为你在这个过程中的某个时候需要让模型学会物理,而你需要通过模拟器来开启这个学习过程。但说实话,我不是这方面的专家。

Elad: 那么所有这些模型都需要大量的GPU,而目前GPU紧缺的问题已经是公开的讨论,并且有不同类型的短缺。你认为什么时候这种情况会缓解,或者你认为这种情况会缓解吗?

Arthur: 我认为随着NVIDIA H100到来,硬件领域将会有一些竞争,从而降低显卡成本。我还期待,随着基础模型转向多模态(multimodal),我们实际上可以在更多芯片上进行训练。因此,我认为我们还没有在扩展方面碰壁。随着我们进入生产过程并让模型在后台运行智能体,这可能会在训练部分和推理(inference)部分持续扩张。而这实际上消除了我们在开始时遇到可读取信息速度的瓶颈。我期待推理能力(inference capability)会显著扩展。

Elad: 你认为这会通过传统的基于GPU的方法来实现,还是有越来越多的定制ASIC(专用集成电路),无论是针对特定的Transformer模型而在芯片上直接烧上权重,还是更广泛地针对大部分Transformer模型而加载权重或类似的东西?

Arthur: 所有人都使用Transformer的好处是可以针对这种架构专门定制硬件,这样可以有很多增益。在NVIDIA芯片上有一些不幸的瓶颈,例如内存带宽就是一个问题。所以通过转向更定制化的芯片,可以大大降低推理(inference)的成本。它现在还没有准备好,所以我们现在不抱过大的希望,但我真的期待这将显著改善成本。

企业对AI的需求

Elad: Mistral是以开发者为中心的产品开始的,你们最初推出了一个非常开源的产品。现在你们开始为各种企业提供服务。在个人使用的案例中,或企业领域,有没有一些共性?

Arthur: 有的。企业采用这项技术主要有三个用例。第一个是开发者生产力。通常他们在使用现成的方法时会遇到困难,因为那并不符合他们的开发方式。他们也使用知识管理工具,通常他们会构建助手并连接到自有数据库。最后一个是客户服务。最成熟的公司已经在很大程度上减少了客户与人类客服互动,使其变得更加高效。这些是我们看到的企业的三个用例。而对于 AI 公司来说,情况要多样得多,因为他们有更多定制的东西。但总的来说,企业有这三个用例。这也是我们开始考虑在价值链上稍作调整,提供更多 "交钥匙 "服务的原因,因为有时候他们需要一点帮助。

Elad: 是的,这很有道理。我猜这里的许多人都看到了Klarna首席执行官的推文,他谈到了客户成功以及他们基于OpenAI推出的一系列工具让他们所需的客户支持方面的人员减少了700名。他们在一个月内推出,并且在那一个月内收到了230万次回复。所以似乎有这样一个巨浪即将到来,我认为在生产力、就业等方面的影响几乎是被低估的。

Arthur: 是的,我们看到了更多样的用例。其中之一是与临时工短信互动并帮助为他们找到一份工作的平台。这个平台将客服由150人减少到了7人,并且实际上能够更好地扩展平台并使临时工更容易地工作。总的来说,自动化更多客户服务是改善客户服务的一种方式。这就是我认为这项技术令人兴奋的地方。

Elad: 你认为目前缺少什么,或者是什么阻碍了企业对这项技术采用的进一步加速?

Arthur: 我们认为他们仍然在评估和弄清如何验证模型是否可以真正投入生产方面有些困难。缺少的是一系列用来进行持续集成的工具,还有自动改进LLM以用于任何用例的工具。这是企业内开发者采用上面的缺失。现在对于企业内用户采用来说,我认为我们离创造出能够按照指令操作、用户可以轻松定制的助手还很遥远。所以在用户方面,我认为这是缺失的。

Elad: 我认为你们对人工智能的监管非常深思熟虑。我知道你们已经参与了一些有关欧盟监管和其他人工智能监管的讨论。可以解释一下你们的观点吗,就目前与将来重点关注什么以及如何更加全面地考虑这个问题而言?

Arthur: 是的,我们不得不站出来,因为在十月份的时候,有一场反对开源人工智能的大运动。所以我们不得不解释,这样做其实是现今确保技术安全和经过充分评估的正确方式。总的来说,我们一直在说人们在把一些非常不同的关于存在性风险和国家安全和LLM被用来生成生物武器的对话合并在一起,而存在性风险本身的定义就非常模糊且没有什么科学理论支持,而LLM生成生物武器也是缺乏证据的事情。

然而另外有一些非常重要的问题是我们应该关注的,那就是如何实际部署模型并控制它们在说的东西?如何处理偏见?如何设置模型的语气,以便可以评估和控制?我认为这是最重要的部分。如何构建安全的产品来很好地控制和评估?这是我们应该关注的一件事。这也是我们几个月来一直在说的事情,因为我们几乎是被迫发表看法。

Elad: 是的,似乎人们在短期内对人工智能担忧的是Deepfakes或者伪造声音这种事情,无论是出于金融攻击还是出于政治目的等等。你们有计划进入语音和多模态方面吗?

Arthur: 生成非文本的东西在安全性方面更容易掉入陷阱,而我们避免了这种情况。逼真地模仿声音和Deepfake是非常令人担忧的。这不是我们能够解决的问题。文本的处理则要容易得多,因为从来不会发生这种问题。你可以生成文本,而生成文本从来不会直接促成非常有害的行为。产生误导信息的情况是有的,但通常,误导信息是受扩散的限制,而不是受创造的限制。所以通过专注于文本,我们可以规避这些实际存在的问题。

欧洲的AI与初创企业图景

Elad: 我认为Mistral最引人注目的一点是,我应该说目前整个欧洲都是如此,那就是有一个非常强大的初创企业图景。我看目前人工智能初创企业形成的两个最大的中心,一个是硅谷,另一个就是巴黎-伦敦走廊。你们有ElevenLabs(ZP注:人工智能语音生成公司),你们有Mistral,你们还有正在发展的所有这些伟大的公司。你认为是什么在推动这一切?

Arthur: 我认为有几个历史原因。DeepMind一直在伦敦,而它对全世界人才有非常强大的吸引力。在 2018 年,DeepMind和谷歌都在巴黎开设了办公室、研究办事处,这增强了那里本身已经相当强大的研究所图景,因为事实证明,法国和欧盟内的其他一些国家有很好的教育输出。所以初级机器学习工程师和初级机器学习科学家都相当不错。所以这就是为什么今天我们在基础层和应用层都有相当强大的公司生态的原因之一。

Elad: 是的,法国人似乎比英国人聪明得多。不,我只是开玩笑。[笑]

Arthur: 这话可不是我说的。

Elad: 我认为还有一个非常引人注目的事情是,我们开始看到很多不同的人工智能公司专注于区域差异。例如,当你们的产品推出时,包含了各种不同的欧洲语言。我知道目前有为了日本、印度和各种不同地区正在建立的模型。一个观点是,要么有大型全球平台公司、可以服务于几乎所有地方,除了中国,因为中国可能在某种程度上被防火墙隔离,就像它一直以来在互联网方面的操作一样;要么在世界上有不同地区的领导公司出现。特别是你可以几乎把它看作波音对上空客,而特定地区的政府决定他们真的希望资助或成为当地企业的客户。你如何看待未来世界,以及全球与区域平台的演变?

Arthur: 我们采取了全球化的分发方法。我想说我们是可以采取另一种路径,那就是专注于欧洲市场,假设这样做是合理的。但我们不认为是这样的。技术仍然非常灵活,因此可以在国家之间流动。另一方面,我们正在构建的技术实际上与语言非常相关,而英语只是许多语言中的一种。事实证明,LLM在英语方面的表现要比其他语言好得多。

所以通过更多地关注不同语言,我们设法制作出了与美国模型相比之下非常擅长欧洲语言的模型。而这是一个很大的市场。同样,在亚洲有一个亚洲语言模型的大市场。为了进军这些市场,还有各种科学问题需要解决,但这些市场是巨大的,而且这些市场并不是美国的公司的重点。因此,作为一家欧洲公司,为全球市场做更多的工作是一种机会。

Elad: 好的,太棒了。我想我们可以向观众开放几个问题。

观众的问题是:你们是否计划发布你们的模型的闭源版本,还是永远保持开源?

Arthur: 我们已经有商业模型了。在某种程度上,我们并没有完全开源一切。我们是一家非常年轻的公司,但我们的目标是发布最好的开源模型。然后,我们基本上会推出企业周边产品和一些高级功能,我们可以通过出售这些产品来维持业务。

所以我们现在的策略,这个策略可能会随着时间的推移而发展,是既有非常强大的开源模型,也有在同时期更强大的模型来提供闭源API。我们商业模型的另一个重点是使这些模型的部署非常可移植且非常灵活。因此,我们向一些客户交付权重并允许他们修改模型,像使用开源模型一样在客户端进行微调。从这个意义上说,我们在商业和开源之间有一些统一性。

[观众问题:主要使用场景]

Arthur: 知识管理,开发者生产力。所以基本上是编程的场景。

[观众问题:是否计划做编程模型?]

Arthur: 是的,我们有计划。今天不是做任何的发布,但我们确实有计划。

[观众问题:新的架构和研究]

Arthur: 到目前为止,我们主要是进入了生产阶段,因为团队相当精简,但我们没有全职员工投入到寻找新架构、做研究等工作中。我认为为了保持竞争力,进行研究是很重要的。所以随着我们的扩张,我们将能够有能力进行更多的探索。这也与拥有的计算能力密切相关。如果想要做一些发现并取得一些进展,你需要足够的计算能力。由于H100的短缺,我们的计算能力有些受限,但希望这将会有所改善。我们期望能够进行更多的研究和探索性研究,我想是因为我们从一开始就一直在从事研究。

建立快速行动的团队

Elad: 我想与此相关的是,你的团队似乎总是非常强调行动,并且行动迅速。你是如何选拔你要雇佣的人的?你有寻找的特质吗?你会问什么样的面试问题?

Arthur: 我们寻找能够做从基础设施堆栈到制作、提取、转换和加载管道再到数学思考的AI科学家。所以我们一直在努力找到全栈AI工程师,而他们一般都倾向于行动。实际上我们的重点是找到愿意亲自动手去做一些工作的不好面子的人,而这些工作常被一些AI科学家认为是无聊的,因为确实有点无聊。但实际上这是非常有效的,也因为我们专注于正确的事情。

团队现在挺大的了,所以与此相关的挑战很多。我对我们收到的潜在用户数量和我必须进行的工作数量感到惊讶,特别是当我们被卷入一些政治问题时,虽然我们更愿意避免这类问题,但我们别无选择。所以从总体上说,这对我来说肯定是一个惊喜。我也对我们设法取得的速度感到惊讶,因为这速度实际上超出了我们的预期。但是,是的,当我们刚成立的时候,我对创始人的工作不甚了解。这非常有趣,但也是令人惊讶的。我当时预想自己一年后仍然在编程,但不幸的是实际上不是这样。但是,是的,这是试图快速扩展的代价。

Elad: 现在你可以做人力资源编程了,这就更好了。

Arthur: 是的。

[观众问题]

Arthur: 我们创办公司的初衷是要建立一个产品端来创造足够的价值来支持我们有一个研究端。老实说,并没有多少这样的实例。确实有一些有着非常大的主营业务的云服务公司可以用经费维持旗下的研究实验室。我们认为通过人工智能和技术带来的价值,这一点是可以做到的。但我想这还有待证明。这就是我们正在用Mistral进行的实验。

Elad: 也许也许。最后一个问题。我知道Arthur有个硬性的离场时间。也许那位。

[观众问题:小型模型实际上可以有多强大的性能]

Arthur: 是的,我认为你可以逼它输出那样的性能。问题是,会不会能有一个7B大小的模型能够击败Mistral Large?这有点棘手,但可能有方法。我也期待硬件的改进,比如本地硬件的改进。这也将提供更多的空间和更多的内存。是的,我看到了更大的潜力,因为实际上你会受到负载扩展的限制。这告诉你,在某些时候,一定大小的模型容量确实会达到饱和。

Elad: 主要限制因素是什么?或者说,你认为它在扩展负载时的渐近线是什么?

Arthur: 如果你专注于特定任务,你可以使7B模型有非常好的表现。但是如果你想将世界上所有的知识都压缩到7GB,那么这实际上是相当贪心的。因此,比如,在这种大小上,做多语言模型不是一个好主意。你需要专注于你想要压缩的人类知识的一个特定部分。

OpenAI最强竞对Mistral AI最新万字访谈,吐血整理干货十足 (https://www.qianyan.tech/) AI 第3张

Elad: 我最后一个问题,然后我们就可以结束了。我的一个朋友向我指出了这一点,当你训练模型时,你基本上就是在启动一个巨大的数据中心或超级计算机,然后运行它数周或数月或者你决定的训练时长,然后输出一个文件。

Arthur: 你基本上就是在压缩世界知识。基本上仅是那样。

Elad: 是的,你如何看待持续训练、长期再训练或附加更长时间的训练?我知道有些人训练时间越来越长,然后放弃一个模型,然后继续训练,然后放弃一个模型。因此,我不知道你是如何看待这个走向的?

Arthur: 是的,这是一种有效的训练方法,对我们来说肯定是有趣的。

Elad: 好的,太棒了。那么,请和我一起感谢Arthur。

THE END

发表回复

相关推荐