人工智能(AI)聊天机器人的队列越来越拥挤。今年7月,Facebook母公司Meta发布了其在生成式AI领域的最新产品:LLaMa 2。
顾名思义,LLaMa 2是Meta发布的第二版LLaMa——LLaMa是“Large Language Model Meta AI”(大型语言模型Meta AI)的缩写。根据Meta的说法,用于训练新版LLaMa的数据量比前一版多了40%,上下文长度是前一版的两倍。
不过LLaMa 2与ChatGPT、必应聊天(Bing Chat)或谷歌Bard等其他一些文本生成式AI工具相比又如何呢?
我试用了LLaMa 2,想了解一下它对于生成式AI工具能够协助完成的一些常见任务的执行情况。我发现它是一个强大的开源模型,有很大潜力能被改造和定制以提供不同的体验。然而,作为面向消费者的创新性AI(写作和研究等)工作助手,LLaMA 2能发挥一定的作用,但相比现有的一些机器人还称不上是一款卓越的工具。
另一种AI机器人
关于LLaMa 2需要了解的一件事是,它的主要用途并不是作为一个聊天机器人。LLaMa 2是一款通用大型语言模型,可供开发者下载和定制——这也是Meta首席执行官马克·扎克伯格完善和改进该模型计划的一部分。
这意味着如果你想将LLaMa 2用作聊天机器人,你就需要使用Hugging Face等平台上提供的LLaMa 2特殊演示版。我们使用的版本HuggingChat是由开发者社区通过将LLaMa 2部署到Hugging Face上创建的。还有其他平台可以试用不同的基于LLaMa 2的聊天机器人,不过HuggingChat是一个专门的聊天机器人,旨在成为ChatGPT的开源替代品。
Hugging Face的技术总监菲利普•施密德对《财富》杂志表示,尽管HuggingChat可媲美其他AI机器人,但这种比较并不十分恰当。LLaMa 2的特点在于它能够根据特定需求被改造,且这个过程无需昂贵的成本。该模型尚未像必应聊天等产品一样针对特定目的进行微调。
LLaMa 2也没有连接互联网。这意味着它的“知识”截至2022年12月。这比ChatGPT的截止日期2021年9月离现在更近。HuggingChat聊天机器人的创建者为其增加了搜索网页的选项,但这项功能还处在发展的初期,无法赋予LLaMa 2与其他网页搜索聊天机器人同等的能力。如果你需要从互联网上获得最新的信息,最好使用必应聊天或谷歌Bard这类工具。
Facebook研究人员在一篇宣布推出LLaMa 2的论文中写道,论文中的人类评估结果显示,LLaMa 2模型通常比现有的其他开源模型表现更佳,并且性能非常接近ChatGPT等闭源模型。该论文承认,LLaMa 2目前还不能与OpenAI最先进的大型语言模型GPT4相提并论。
对LLaMa 2进行测试
我让LLaMa 2机器人给我的同事写一封电子邮件,告诉他们我要出城。它生成了一份符合职场简练和正式风格的像样的备忘录。
既然它可以写电子邮件,那能否驾驭敏感话题(如拒绝一份工作)呢?我让LLaMa 2机器人给我起草一封回复邮件,说我不能接受这份工作。结果它写了一篇没有人情味的三段式短文,这份回复邮件或许会被当成是人类写的,但肯定丝毫不能抚平对方因遭到拒绝产生的挫败感。
于是我再次要求它执行这一指令,并且要求它写得更加具体、有人情味且充满歉意。然后它生成了一封冗长、或许太过正式的邮件,不过这次的邮件是可用的。当有需要时,LLaMa 2演示版似乎可以假装懊悔。
LLaMa 2是能够完成这类任务的,尤其是当你提示它具体信息时。它可以写出不错的摘要,如果需要的话,它还能轻松地帮忙起草一份备忘录。只要向LLaMa 2提供具体的名称、时间和理由,它就能够礼貌拒绝参加某场会议或书写一封特定的正式邮件。
我发现,相比ChatGPT,LLaMa 2的文笔尚可,却过于正式。我宁愿使用ChatGPT,因为它更善于在语言中融入几分人情味。LLaMa的语言则有些生硬和千篇一律,难以胜任这类任务。
对于更具创造性或“文学性”的写作任务,LLaMa 2瑕瑜互见。它很难遵循字数指示。如果我让LLaMa 2写一篇150字的短文,它往往会写出190字。它可以根据建议的主题写俳句或16行诗,但诗篇是否出彩却很难说。你觉得“电路热闹忙碌,处理器加速数字冲突,双重交响乐”是一首俳句佳作吗?
我让LLaMa 2以“2020年新闻业困境”为主题写作,结果它却写了一首相当糟糕的16行诗。虽然聊天机器人并非以文笔雅正闻名(而且我也不够资格来评价诗作),但那首诗却给我一种半生不熟的感觉。全诗没有押韵,即使它当中含有“墨迹斑斑的可怜虫,第四等级曾经的骄傲”等有趣的诗句并且主题连贯,但我无论如何也不认为它是一首好诗。
在研究能力方面,LLaMa 2并没有达到标准
我还向LLaMa 2机器人询问了一些客观事实,让它跟我描述中国的房地产危机。LLaMa 2给出了一系列要点,总结了中国的市场背景、社会问题和基础设施状况。当我要求它提供更多信息时,它甚至还能详细阐述房价情况和新冠疫情的影响。
接着,我要求LLaMa 2给我一份50字的摘要,并附上引文。结果它给出71字,并在每句话的末尾用括号附上了刊物的名称。我打开“网页搜索”功能(允许LLaMa 2从网页获取资料),然后再次提出指令。这次它给出了50字,但每个链接都指向不存在的页面。
2023年7月,当我问及中国房地产危机的情况时,LLaMa 2再次因提供错误信息和更多无效链接而显示一大堆令人摸不着头脑的道歉话语。
鉴于LLaMa 2的知识截止日期为2022年12月且搜索功能存在缺陷,最好不要使用它来进行重要研究。目前的LLaMa 2模型还只是一个演示版,但也需要进行一定的微调。这个规则适用于所有生成式AI工具——一定要研究清楚它能创造什么。对于LLaMa 2这项AI工具来说,这样做尤为重要。它在提供引文时出现了幻觉,并且具有知识截止点。如果我要求它概括或精简信息或修改文本,它会越来越倾向于出现幻觉而提供虚假信息。
你应该利用LLaMa 2吗?
Hugging Face上的LLaMa 2演示版不同于ChatGPT、谷歌Bard和必应聊天等其他聊天机器人。作为一款聊天机器人的早期版本,它有成功的希望,但仍然很不完善。LLaMa 2演示版不适合用于研究,而且有一些“欺骗性”时刻(请原谅这里使用拟人化)。
如果我想使用LLaMa 2演示版来完成测试和撰写备忘录之外的事情,我将不得不筛选冗长、有时甚至未完成的文本。
话说如此,使用AI聊天机器人的理由也举不胜举,而且像基于LLaMa 2的HuggingChat这类工具也在不断地调整和更新。因此我希望你亲自试用一下这个机器人,看看它是否更符合你的需求。只是要注意它的局限性。(财富中文网)
译者:中慧言-刘嘉欢
人工智能(AI)聊天机器人的队列越来越拥挤。今年7月,Facebook母公司Meta发布了其在生成式AI领域的最新产品:LLaMa 2。
顾名思义,LLaMa 2是Meta发布的第二版LLaMa——LLaMa是“Large Language Model Meta AI”(大型语言模型Meta AI)的缩写。根据Meta的说法,用于训练新版LLaMa的数据量比前一版多了40%,上下文长度是前一版的两倍。
不过LLaMa 2与ChatGPT、必应聊天(Bing Chat)或谷歌Bard等其他一些文本生成式AI工具相比又如何呢?
我试用了LLaMa 2,想了解一下它对于生成式AI工具能够协助完成的一些常见任务的执行情况。我发现它是一个强大的开源模型,有很大潜力能被改造和定制以提供不同的体验。然而,作为面向消费者的创新性AI(写作和研究等)工作助手,LLaMA 2能发挥一定的作用,但相比现有的一些机器人还称不上是一款卓越的工具。
另一种AI机器人
关于LLaMa 2需要了解的一件事是,它的主要用途并不是作为一个聊天机器人。LLaMa 2是一款通用大型语言模型,可供开发者下载和定制——这也是Meta首席执行官马克·扎克伯格完善和改进该模型计划的一部分。
这意味着如果你想将LLaMa 2用作聊天机器人,你就需要使用Hugging Face等平台上提供的LLaMa 2特殊演示版。我们使用的版本HuggingChat是由开发者社区通过将LLaMa 2部署到Hugging Face上创建的。还有其他平台可以试用不同的基于LLaMa 2的聊天机器人,不过HuggingChat是一个专门的聊天机器人,旨在成为ChatGPT的开源替代品。
Hugging Face的技术总监菲利普•施密德对《财富》杂志表示,尽管HuggingChat可媲美其他AI机器人,但这种比较并不十分恰当。LLaMa 2的特点在于它能够根据特定需求被改造,且这个过程无需昂贵的成本。该模型尚未像必应聊天等产品一样针对特定目的进行微调。
LLaMa 2也没有连接互联网。这意味着它的“知识”截至2022年12月。这比ChatGPT的截止日期2021年9月离现在更近。HuggingChat聊天机器人的创建者为其增加了搜索网页的选项,但这项功能还处在发展的初期,无法赋予LLaMa 2与其他网页搜索聊天机器人同等的能力。如果你需要从互联网上获得最新的信息,最好使用必应聊天或谷歌Bard这类工具。
Facebook研究人员在一篇宣布推出LLaMa 2的论文中写道,论文中的人类评估结果显示,LLaMa 2模型通常比现有的其他开源模型表现更佳,并且性能非常接近ChatGPT等闭源模型。该论文承认,LLaMa 2目前还不能与OpenAI最先进的大型语言模型GPT4相提并论。
对LLaMa 2进行测试
我让LLaMa 2机器人给我的同事写一封电子邮件,告诉他们我要出城。它生成了一份符合职场简练和正式风格的像样的备忘录。
既然它可以写电子邮件,那能否驾驭敏感话题(如拒绝一份工作)呢?我让LLaMa 2机器人给我起草一封回复邮件,说我不能接受这份工作。结果它写了一篇没有人情味的三段式短文,这份回复邮件或许会被当成是人类写的,但肯定丝毫不能抚平对方因遭到拒绝产生的挫败感。
于是我再次要求它执行这一指令,并且要求它写得更加具体、有人情味且充满歉意。然后它生成了一封冗长、或许太过正式的邮件,不过这次的邮件是可用的。当有需要时,LLaMa 2演示版似乎可以假装懊悔。
LLaMa 2是能够完成这类任务的,尤其是当你提示它具体信息时。它可以写出不错的摘要,如果需要的话,它还能轻松地帮忙起草一份备忘录。只要向LLaMa 2提供具体的名称、时间和理由,它就能够礼貌拒绝参加某场会议或书写一封特定的正式邮件。
我发现,相比ChatGPT,LLaMa 2的文笔尚可,却过于正式。我宁愿使用ChatGPT,因为它更善于在语言中融入几分人情味。LLaMa的语言则有些生硬和千篇一律,难以胜任这类任务。
对于更具创造性或“文学性”的写作任务,LLaMa 2瑕瑜互见。它很难遵循字数指示。如果我让LLaMa 2写一篇150字的短文,它往往会写出190字。它可以根据建议的主题写俳句或16行诗,但诗篇是否出彩却很难说。你觉得“电路热闹忙碌,处理器加速数字冲突,双重交响乐”是一首俳句佳作吗?
我让LLaMa 2以“2020年新闻业困境”为主题写作,结果它却写了一首相当糟糕的16行诗。虽然聊天机器人并非以文笔雅正闻名(而且我也不够资格来评价诗作),但那首诗却给我一种半生不熟的感觉。全诗没有押韵,即使它当中含有“墨迹斑斑的可怜虫,第四等级曾经的骄傲”等有趣的诗句并且主题连贯,但我无论如何也不认为它是一首好诗。
在研究能力方面,LLaMa 2并没有达到标准
我还向LLaMa 2机器人询问了一些客观事实,让它跟我描述中国的房地产危机。LLaMa 2给出了一系列要点,总结了中国的市场背景、社会问题和基础设施状况。当我要求它提供更多信息时,它甚至还能详细阐述房价情况和新冠疫情的影响。
接着,我要求LLaMa 2给我一份50字的摘要,并附上引文。结果它给出71字,并在每句话的末尾用括号附上了刊物的名称。我打开“网页搜索”功能(允许LLaMa 2从网页获取资料),然后再次提出指令。这次它给出了50字,但每个链接都指向不存在的页面。
2023年7月,当我问及中国房地产危机的情况时,LLaMa 2再次因提供错误信息和更多无效链接而显示一大堆令人摸不着头脑的道歉话语。
鉴于LLaMa 2的知识截止日期为2022年12月且搜索功能存在缺陷,最好不要使用它来进行重要研究。目前的LLaMa 2模型还只是一个演示版,但也需要进行一定的微调。这个规则适用于所有生成式AI工具——一定要研究清楚它能创造什么。对于LLaMa 2这项AI工具来说,这样做尤为重要。它在提供引文时出现了幻觉,并且具有知识截止点。如果我要求它概括或精简信息或修改文本,它会越来越倾向于出现幻觉而提供虚假信息。
你应该利用LLaMa 2吗?
Hugging Face上的LLaMa 2演示版不同于ChatGPT、谷歌Bard和必应聊天等其他聊天机器人。作为一款聊天机器人的早期版本,它有成功的希望,但仍然很不完善。LLaMa 2演示版不适合用于研究,而且有一些“欺骗性”时刻(请原谅这里使用拟人化)。
如果我想使用LLaMa 2演示版来完成测试和撰写备忘录之外的事情,我将不得不筛选冗长、有时甚至未完成的文本。
话说如此,使用AI聊天机器人的理由也举不胜举,而且像基于LLaMa 2的HuggingChat这类工具也在不断地调整和更新。因此我希望你亲自试用一下这个机器人,看看它是否更符合你的需求。只是要注意它的局限性。(财富中文网)
译者:中慧言-刘嘉欢
The lineup of A.I. chatbots is getting crowded. In July, Facebook-parent company Meta released its latest entry into the generative A.I. arena: LLaMa 2.
As the name suggests, this is Meta’s second version of the tool (LLaMA stands for Large Language Model Meta AI). According to Meta, the new LlaMa was trained on 40% more data than its predecessor and has double the context length.
But how does it compare to some of the other text-generating A.I. tools out there, like ChatGPT, Bing Chat or Google Bard?
I played around with LLaMa 2 to see how it performs on some of the common tasks that generative A.I. tools are useful for. What I found was a powerful open-source model that offers lots of potential to be adapted and customized for different experiences. But as an out-of-the-box consumer-facing A.I. assistant for jobs like writing or researching, LLaMA 2 is a usable, but not superior tool compared to some of the existing bots.
A different kind of A.I. bot
One thing to understand about LLaMa 2 is that its primary purpose isn’t to be a chatbot. LLaMa 2 is a general LLM available for developers to download and customize, part of Meta CEO Mark Zuckerberg’s plan to improve and advance the model.
That means that if you want to use LLaMa 2 as a chatbot, you’ll need to use special demo versions available on platforms like Hugging Face. The version that we used, HuggingChat, was created by the developer community by deploying LLaMa 2 to Hugging Face. There are other available places to try different LLaMa 2-based chatbots, but HuggingChat is a specialized chatbot, created to be an open-source alternative to ChatGPT.
Philipp Schmid, a technical director of Hugging Face, told Fortune that while the chatbot is comparable to other A.I. bots, it’s not a perfect comparison. LLaMa 2’s specialty is that it can inexpensively be shaped for specific needs. The model hasn’t been fine-tuned to a specific purpose the way a product like Bing Chat has.
LLaMA 2 is also not connected to the internet. That means it has a “knowledge cutoff” at December 2022. That’s more recent than the September 2021 cutoff of ChatGPT. The creators of the HuggingChat chatbot added an option to search the web, but it’s still in the early stages and doesn’t give LLaMa 2 the same capacity as other web-searching chatbots. If you need the most up-to-date information from the internet, you’re better served with a tool like Bing Chat or Google Bard.
In a paper announcing the release of LLaMa 2, Facebook researchers wrote that LLaMA 2 models generally perform better than existing open-source models and are close behind closed-source models like ChatGPT, according to the human evaluations in the paper. The paper acknowledges it can’t yet fully compare to GPT4, OpenAI’s most advanced LLM.
Putting LLaMa 2 to the test
I asked the bot to write an email to my co-workers telling them I was going out of town. It spit out a decent memo suited for the crisp formality of the corporate space.
It can write emails, but can it navigate the touchy subjects, like turning down a job offer? I prompted the bot to draft me an email response saying that I couldn’t accept the job offer. It wrote a short, impersonal three paragraphs that might pass as human, but the email certainly wouldn’t smooth any frustrations that would come from receiving a rejection.
So I asked it again, and I requested it to be more specific, personal and apologetic. It responded with a wordy, possibly too formal email, but this time the email was do-able. It seems the LLaMa 2 demo can fake some contrition when requested
LLaMa could do these kinds of tasks, especially if you prompt it with specifics. It could write decent summaries, and it could easily draft a memo should someone need help. There’s functionality for politely declining a meeting — just feed it the specific names, times and reasons — or for writing specific, formal emails.
Compared to ChatGPT, I found LLaMa 2’s penmanship to be decent but overly formal. I’d use ChatGPT because it often has a stronger flair for putting a degree of human in its language. LLaMa was a bit unpolished and generic for these tasks.
For more creative or “literary” writing tasks, LLaMa 2 was mixed. It struggles to follow word count instructions. If I asked for a 150-word short story, it would give me 190 words. It could write a haiku or 16-line poem about any suggested topic, but whether it was any good is hard to say. Do you think “Circuits hum with life, Processors pace the digital strife, Binary symphony” is a strong haiku?
I asked it to write about “the plight of journalism in 2020,” and it wrote a fairly terrible 16-line poem. While the chatbots aren’t known for their literary elegance (and I’m likely not qualified to judge a poem), this poem felt half-baked. It didn’t rhyme, and even though it generated fun lines like “ink-stained wretches, once the fourth estate’s pride” and had a coherent theme, I wouldn’t call it well-written by any stretch.
When it comes to research, LLaMA 2 isn’t up to par
I also quized the bot on some hard facts, asking it to tell me about the property crisis in China. It served up a slew of bullet points summarizing the market, societal problems and infrastructure in China. When pressed for more information, it could even elaborate on the housing prices and the effects of the COVID-19 pandemic.
Then, I asked it to give me a 50-word summary with citations. It gave me 71 words with the names of publications in parentheses at the end. I turned on the “Search web” function, which allows it to pull from the web, and asked again. It gave me 50 words this time, but each link led to a non-existent page.
When asked about what’s going on with the crisis in July 2023, it again fed me a slew of confusing apologies for misinformation and more broken links.
Between the knowledge cutoff of December 2022 and its faulty search function, it’s likely best to not use this for important research. It’s still a demo, but it’s in need of some fine-tuning. The same rules apply to all generative A.I. tools — always do your research about what it creates. But it is especially important to do that for this tool. It hallucinated citations and it has a knowledge cutoff. If I asked it to summarize and condense information or to alter the text, its response would be increasingly prone to hallucinating fake information.
Should you ride the LLaMA?
The LLaMA 2 demo on Hugging Face isn’t the same as the other chatbots like ChatGPT, Google Bard, and Bing Chat. It shows promise for an early version of a chatbot, but it’s still pretty unpolished. It’s not great for researching, and it had some “deceitful” moments (if you’ll excuse the anthropomorphism).
If I were looking to use the demo for anything more than testing and writing memos, I would have to sift through wordy, occasionally unfinished work.
That said, there are countless reasons to use an A.I. chatbot, and tools like the LLama 2-based HuggingChat are constantly being tweaked and updated. So I encourage you to take this bot for a spin yourself, and see if it’s better suited for what you need. Just be aware of its limitations.