Google AI JavaScript SDK 使用教程
1. 项目介绍
Google AI JavaScript SDK 是一个专为 JavaScript 开发者设计的工具包,旨在简化与 Google Gemini API 的集成。Gemini API 提供了访问由 Google DeepMind 创建的 Gemini 模型的能力。这些模型从设计之初就支持多模态处理,能够无缝地处理文本、图像和代码。
该 SDK 主要用于 Node.js 和 TypeScript 环境,帮助开发者快速构建基于 Gemini 模型的应用。需要注意的是,直接在客户端应用中使用该 SDK 仅推荐用于原型开发。如果涉及到计费,强烈建议在服务器端调用 Gemini API,以确保 API 密钥的安全。
2. 项目快速启动
安装 SDK
首先,通过 npm 安装 Google AI JavaScript SDK:
npm install @google/generative-ai
初始化模型
在项目中引入 SDK 并初始化模型:
const [ GoogleGenerativeAI ] = require("@google/generative-ai");
const genAI = new GoogleGenerativeAI(process.env.API_KEY);
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
运行提示
使用模型生成内容:
const prompt = "Does this look store-bought or homemade?";
const image = {
inlineData: {
data: Buffer.from(fs.readFileSync("cookie.png")).toString("base64"),
mimeType: "image/png"
}
};
const result = await model.generateContent({prompt, image});
console.log(result.response.text());
3. 应用案例和最佳实践
文本生成
使用 Gemini 模型生成文本内容:
const prompt = "Write a short story about a robot learning to cook.";
const result = await model.generateContent({prompt});
console.log(result.response.text());
图像分析
结合图像和文本提示进行分析:
const prompt = "Describe the image in detail.";
const image = {
inlineData: {
data: Buffer.from(fs.readFileSync("landscape.jpg")).toString("base64"),
mimeType: "image/jpeg"
}
};
const result = await model.generateContent({prompt, image});
console.log(result.response.text());
代码生成
生成或优化代码片段:
const prompt = "Generate a function to sort an array of numbers in JavaScript.";
const result = await model.generateContent({prompt});
console.log(result.response.text());
4. 典型生态项目
1. Google AI Studio
Google AI Studio 是一个集成开发环境,专门用于构建和部署 AI 模型。它提供了丰富的工具和资源,帮助开发者快速上手并优化他们的 AI 项目。
2. Google Cloud AI Platform
Google Cloud AI Platform 提供了一个全面的平台,支持从模型训练到部署的全流程。它与 Google AI JavaScript SDK 无缝集成,使得开发者可以在云端高效地管理和扩展他们的 AI 应用。
3. TensorFlow.js
TensorFlow.js 是一个开源库,允许在浏览器和 Node.js 中运行机器学习模型。它与 Google AI JavaScript SDK 结合使用,可以进一步提升应用的性能和功能。
通过这些生态项目,开发者可以构建更加复杂和强大的 AI 应用,充分利用 Google 提供的先进技术和资源。
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C0100
baihu-dataset异构数据集“白虎”正式开源——首批开放10w+条真实机器人动作数据,构建具身智能标准化训练基座。00
mindquantumMindQuantum is a general software library supporting the development of applications for quantum computation.Python059
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00
GLM-4.7GLM-4.7上线并开源。新版本面向Coding场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。 目前,GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作。Jinja00
AgentCPM-Explore没有万亿参数的算力堆砌,没有百万级数据的暴力灌入,清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 AgentCPM-Explore 智能体模型基于仅 4B 参数的模型,在深度探索类任务上取得同尺寸模型 SOTA、越级赶上甚至超越 8B 级 SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果,真正让大模型的长程任务处理能力有望部署于端侧。Jinja00