Meta开放了LLaMA 2模型，并且可以直接商用，同时开放了生成版本和聊天版本，包括7b,13b和70b三种规格的大模型。本文接下来将介绍使用阿里云免费GPU部署LLaMA 2模型及进行Llama-2-70b大模型对话能力评测。

Llama-2系列模型下载：

模型下载，常规方式：

准备模型（7b,13b和70b三种规格的大模型类似）

首先，下载 Hugging Face 格式的权重。下载之前记得去 Hugging Face 申请 LLaMA-2 的权重并生成自己的 Access Token。

如没有账号先注册

填写注册信息

允许共享账号信息给meta，并且会给meta账号绑定的邮箱发邮件

llama-2-70b也同理

Submit之后会给邮箱发一份确认邮件，注册成功之后就可以登录meta申请accessTokens

有了模型权重的访问权限后，我们就能快乐地下载模型啦。

模型下载，使用阿里云的模型镜像方式：

import os
dsw_region = os.environ.get("dsw_region")
url_link = {
"cn-shanghai": "https://atp-modelzoo-sh.oss-cn-shanghai-internal.aliyuncs.com/release/tutorials/llama2/llama2-7b.tar.gz",
"cn-hangzhou": "https://atp-modelzoo.oss-cn-hangzhou-internal.aliyuncs.com/release/tutorials/llama2/llama2-7b.tar.gz",
"cn-shenzhen": "https://atp-modelzoo-sz.oss-cn-shenzhen-internal.aliyuncs.com/release/tutorials/llama2/llama2-7b.tar.gz",
"cn-beijing": "https://atp-modelzoo-bj.oss-cn-beijing-internal.aliyuncs.com/release/tutorials/llama2/llama2-7b.tar.gz", 
}
path = url_link[dsw_region]
os.environ['LINK_CHAT'] = path
!wget $LINK_CHAT
!tar -zxvf llama2-7b.tar.gz

使用免费的阿里云GPU来部署llama2实践：

创建阿里云资源，V100的GPU，32G内存。

新建notebook文件，

执行以下llama2部署脚本：

import gradio as gr
import requests
import json
from transformers import AutoTokenizer, AutoModelForCausalLM

# 模型地址替换为自己训练好的模型地址
tokenizer = AutoTokenizer.from_pretrained("/mnt/workspace/llama2-7b",trust_remote_code=True) 

# 模型地址替换为自己训练好的模型地址
model = AutoModelForCausalLM.from_pretrained("/mnt/workspace/llama2-7b",trust_remote_code=True).eval().half().cuda()

def inference(text):
    from transformers import pipeline
    pipe = pipeline("text-generation", model=model, tokenizer=tokenizer,device='cuda:0', max_new_tokens=400)
    res=pipe(text)
    return res[0]['generated_text'][len(text):]
    
demo = gr.Blocks()

with demo:
    input_prompt = gr.Textbox(label="请输入需求", value="请以算法工程师的身份,写一篇关于大模型发展的发言稿。", lines=6)
    generated_txt = gr.Textbox(lines=6)
    b1 = gr.Button("发送")
    b1.click(inference, inputs=[input_prompt], outputs=generated_txt)
    
demo.launch(enable_queue=True, share=True)

看右上角资源监控，内存狂奔到98.5%。

然后就失败了，系统内存空间不够，GPU还没开始就结束了。

查看资料，llama2-7b模型需要至少64G内存和24GiB及以上的显存。确实内存不够啊，但免费阿里云GPU资源最多只能申请到32G内存，看来免费方式走不通啊。

如果服务器资源够（64G内存和24G显存GPU），以上部署脚本应该可以跑起来。由于资源问题，本次使用阿里云免费GPU部署llama2-7b实验不能继续了，一次失败的实验，失败经验也是知识，故记录下来。

Llama-2-70b的web交互体验：

虽然免费阿里云GPU资源部署llama2模型实践失败，没能进行llama2模型对话体验有点遗憾，但是找到了另一种免费体验llama2大模型对话的方式。

可以访问poe里面的llama2的web对话。

访问地址：https://poe.com/Llama-2-70b

交互体验演示如下：

以上是在poe上面的llama2-70b大模型对话能力的演示，不支持中文，体验不太好。llama2-70b模型本身能力方面，常识性的对话能力还可以，但是推理能力不太行，有待微调提升。

转载：余生不设限公众号

如果你对这篇文章感兴趣，而且你想要了解更多关于AI领域的实战技巧，可以关注「AIGC研究社」。在这里，你可以看到最新最热的AIGC领域的干货文章和案例实战教程。

欢迎加入技术交流群d1878810988

跟大家推荐下几个AI工具，免费的：

一品AI助手(免费ChatGPT)：http://ai.y-p.cc/chat/

一品AI 文案(免费多场景AI文案)：http://ai.y-p.cc/text/create.html

一品AI画师(免费AI绘画)：http://ai.y-p.cc/aiart/

一品AI工具集：http://ai.y-p.cc

一次失败部署实践，阿里云免费GPU部署LLaMA2大模型及对话评测

Llama-2系列模型下载：

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

安装使用Hoppscotch构建API请求访问与测试

轻松转换!AppleNumbers到Excel的快捷教程

Python自动化办公——后台截图（python 自动截图）

电脑端腾讯文档如何导出excel

网络流媒体经典开源软件宝典webRTC, FFMpeg, SIP_流媒体开发教程

一次失败部署实践，阿里云免费GPU部署LLaMA2大模型及对话评测

Llama-2系列模型下载：

相关推荐

取消回复欢迎 你 发表评论:

Google 黑客常用搜索语句一览 原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

安装使用Hoppscotch构建API请求访问与测试

轻松转换!AppleNumbers到Excel的快捷教程

Python自动化办公——后台截图（python 自动截图）

电脑端腾讯文档如何导出excel

网络流媒体经典开源软件宝典webRTC, FFMpeg, SIP_流媒体开发教程

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划