Meta开放了LLaMA 2模型,并且可以直接商用,同时开放了生成版本和聊天版本,包括7b,13b和70b三种规格的大模型。本文接下来将介绍使用阿里云免费GPU部署LLaMA 2模型及进行Llama-2-70b大模型对话能力评测。
Llama-2系列模型下载:
模型下载,常规方式:
准备模型(7b,13b和70b三种规格的大模型类似)
首先,下载 Hugging Face 格式的权重。下载之前记得去 Hugging Face 申请 LLaMA-2 的权重并生成自己的 Access Token。
如没有账号先注册
填写注册信息
允许共享账号信息给meta, 并且会给meta账号绑定的邮箱发邮件
llama-2-70b也同理
Submit之后会给邮箱发一份确认邮件,注册成功之后就可以登录meta申请accessTokens
有了模型权重的访问权限后,我们就能快乐地下载模型啦。
模型下载,使用阿里云的模型镜像方式:
import os
dsw_region = os.environ.get("dsw_region")
url_link = {
"cn-shanghai": "https://atp-modelzoo-sh.oss-cn-shanghai-internal.aliyuncs.com/release/tutorials/llama2/llama2-7b.tar.gz",
"cn-hangzhou": "https://atp-modelzoo.oss-cn-hangzhou-internal.aliyuncs.com/release/tutorials/llama2/llama2-7b.tar.gz",
"cn-shenzhen": "https://atp-modelzoo-sz.oss-cn-shenzhen-internal.aliyuncs.com/release/tutorials/llama2/llama2-7b.tar.gz",
"cn-beijing": "https://atp-modelzoo-bj.oss-cn-beijing-internal.aliyuncs.com/release/tutorials/llama2/llama2-7b.tar.gz",
}
path = url_link[dsw_region]
os.environ['LINK_CHAT'] = path
!wget $LINK_CHAT
!tar -zxvf llama2-7b.tar.gz
使用免费的阿里云GPU来部署llama2实践:
创建阿里云资源,V100的GPU,32G内存。
新建notebook文件,
执行以下llama2部署脚本:
import gradio as gr
import requests
import json
from transformers import AutoTokenizer, AutoModelForCausalLM
# 模型地址替换为自己训练好的模型地址
tokenizer = AutoTokenizer.from_pretrained("/mnt/workspace/llama2-7b",trust_remote_code=True)
# 模型地址替换为自己训练好的模型地址
model = AutoModelForCausalLM.from_pretrained("/mnt/workspace/llama2-7b",trust_remote_code=True).eval().half().cuda()
def inference(text):
from transformers import pipeline
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer,device='cuda:0', max_new_tokens=400)
res=pipe(text)
return res[0]['generated_text'][len(text):]
demo = gr.Blocks()
with demo:
input_prompt = gr.Textbox(label="请输入需求", value="请以算法工程师的身份,写一篇关于大模型发展的发言稿。", lines=6)
generated_txt = gr.Textbox(lines=6)
b1 = gr.Button("发送")
b1.click(inference, inputs=[input_prompt], outputs=generated_txt)
demo.launch(enable_queue=True, share=True)
看右上角资源监控,内存狂奔到98.5%。
然后就失败了,系统内存空间不够,GPU还没开始就结束了。
查看资料,llama2-7b模型需要至少64G内存和24GiB及以上的显存。确实内存不够啊,但免费阿里云GPU资源最多只能申请到32G内存,看来免费方式走不通啊。
如果服务器资源够(64G内存和24G显存GPU),以上部署脚本应该可以跑起来。由于资源问题,本次使用阿里云免费GPU部署llama2-7b实验不能继续了,一次失败的实验,失败经验也是知识,故记录下来。
Llama-2-70b的web交互体验:
虽然免费阿里云GPU资源部署llama2模型实践失败,没能进行llama2模型对话体验有点遗憾,但是找到了另一种免费体验llama2大模型对话的方式。
可以访问poe里面的llama2的web对话。
访问地址:https://poe.com/Llama-2-70b
交互体验演示如下:
以上是在poe上面的llama2-70b大模型对话能力的演示,不支持中文,体验不太好。llama2-70b模型本身能力方面,常识性的对话能力还可以,但是推理能力不太行,有待微调提升。
转载:余生不设限 公众号
如果你对这篇文章感兴趣,而且你想要了解更多关于AI领域的实战技巧,可以关注「AIGC研究社」。在这里,你可以看到最新最热的AIGC领域的干货文章和案例实战教程。
欢迎加入技术交流群d1878810988
跟大家推荐下几个AI工具,免费的:
一品AI助手(免费ChatGPT):http://ai.y-p.cc/chat/
一品AI 文案(免费多场景AI文案):http://ai.y-p.cc/text/create.html
一品AI画师(免费AI绘画):http://ai.y-p.cc/aiart/
一品AI工具集:http://ai.y-p.cc