SillyTavern项目中Google AI Studio内联图片发送问题的分析与修复

2025-05-16 11:15:32作者：卓艾滢Kingsley

LLM Frontend for Power Users.

项目地址：https://gitcode.com/GitHub_Trending/si/SillyTavern

问题背景

在SillyTavern项目的1.12.9版本中，Windows用户在使用Google AI Studio时遇到了一个功能性问题。尽管用户已经勾选了"Send inline images"选项，但Gemini模型无法接收到发送的图片。通过输出日志可以确认，图片数据实际上并未被发送到后端服务。

技术分析

经过深入排查，发现问题出在prompt-converters.js文件的第445行附近的消息合并逻辑上。该段代码原本设计用于合并具有相同角色的连续消息，但在处理包含图片的多部分消息时存在缺陷。

原始代码逻辑如下：

检查当前消息角色是否与前一条消息角色相同
如果相同，则将文本内容合并到前一条消息中
如果不同，则创建新的消息条目

问题在于，当消息包含图片时，图片部分通常位于消息parts数组的第二个位置或之后，而原始代码仅处理了parts数组的第一个元素（文本部分），导致图片数据被丢弃。

解决方案

针对这一问题，开发团队提出了有效的修复方案。修复的核心思路是：

在合并相同角色的消息时，不仅要处理文本部分
还需要提取parts数组中除第一个元素外的所有内容（即图片数据）
将这些图片数据追加到合并后的消息parts数组中

具体实现方式是在原有逻辑后添加两行关键代码：

const files = parts.slice(1);
contents[contents.length - 1].parts.push(...files);

技术影响

这一修复确保了：

文本和图片数据都能被正确合并到连续的同角色消息中
保持了原有消息合并功能的优势
不破坏现有的消息结构
完全兼容Google AI Studio的API要求

最佳实践建议

对于开发者而言，在处理多部分消息（特别是包含媒体内容的消息）时，需要注意：

全面考虑消息中可能包含的所有数据类型
设计合并逻辑时要保持数据的完整性
针对不同的API服务，可能需要特定的数据处理方式
在实现消息合并功能时，应该进行全面的测试，包括文本、图片及其他可能的多媒体内容

该修复已被合并到项目的主分支中，将在后续版本发布，为所有用户解决这一问题。

LLM Frontend for Power Users.

项目地址：https://gitcode.com/GitHub_Trending/si/SillyTavern

登录后查看全文

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统