($width) AND $width .= 'px';
$style = " style=\"width: $width\"";
}
$value = $value ? $value : date('H:i');
$s = "";
return $s;
}
// form_date('start', '2018-07-05') 为空则当前日期
function form_date($name, $value = 0, $width = FALSE)
{
$style = '';
if (FALSE !== $width) {
is_numeric($width) AND $width .= 'px';
$style = " style=\"width: $width\"";
}
$value = $value ? $value : date('Y-m-d');
$s = "";
return $s;
}
/**用法
*
* echo form_radio_yes_no('radio1', 0);
* echo form_checkbox('aaa', array('无', '有'), 0);
*
* echo form_radio_yes_no('aaa', 0);
* echo form_radio('aaa', array('无', '有'), 0);
* echo form_radio('aaa', array('a'=>'aaa', 'b'=>'bbb', 'c'=>'ccc', ), 'b');
*
* echo form_select('aaa', array('a'=>'aaa', 'b'=>'bbb', 'c'=>'ccc', ), 'a');
*/
?>组保留的标签 余下为需要删除的标签
unset($oldtag[$key]);
}
}
}
if (!empty($oldtag)) {
$tagids = array();
foreach ($oldtag as $tagid => $tagname) {
$tagids[] = $tagid;
}
well_oldtag_delete($tagids, $tid);
}
$r = well_tag_process($tid, $fid, $create_tag, $tagarr);
return $r;
}
// 删除标签和绑定的主题
function well_oldtag_delete($tagids, $tid)
{
$pagesize = count($tagids);
$arrlist = well_tag_find_by_tagids($tagids, 1, $pagesize);
$delete_tagids = array(); // 删除
$tagids = array();
$n = 0;
foreach ($arrlist as $val) {
++$n;
if (1 == $val['count']) {
// 只有一个主题
$delete_tagids[] = $val['tagid'];
} else {
$tagids[] = $val['tagid'];
}
}
!empty($delete_tagids) and well_tag_delete($delete_tagids);
$arlist = well_tag_thread_find_by_tid($tid, 1, $n);
if ($arlist) {
$ids = array();
foreach ($arlist as $val) $ids[] = $val['id'];
well_tag_thread_delete($ids);
}
!empty($tagids) and well_tag_update($tagids, array('count-' => 1));
}
// 标签数据处理 $arr=新提交的数组 $tagarr=保留的旧标签
function well_tag_process($tid, $fid, $new_tags = array(), $tagarr = array())
{
if (empty($tid)) return '';
// 新标签处理入库
if ($new_tags) {
$threadarr = array();
$tagids = array();
$i = 0;
$size = 5;
$n = count($tagarr);
$n = $n > $size ? $size : $size - $n;
foreach ($new_tags as $name) {
++$i;
$name = trim($name);
$name = stripslashes($name);
$name = strip_tags($name);
$name = str_replace(array(' ', '#', "@", "$", "%", "^", '&', '·', '<', '>', ';', '`', '~', '!', '¥', '……', ';', '?', '?', '-', '—', '_', '=', '+', '.', '{', '}', '|', ':', ':', '、', '/', '。', '[', ']', '【', '】', '‘', ' ', ' ', ' ', ' ', ' '), '', $name);
$name = htmlspecialchars($name, ENT_QUOTES);
if ($name && $i <= $n) {
// 查询标签
$read = well_tag_read_name($name);
if ($read) {
// 存在 count+1
$tagids[] = $read['tagid'];
} else {
// 入库
$arr = array('name' => $name, 'count' => 1);
$tagid = well_tag_create($arr);
FALSE === $tagid and message(-1, lang('create_failed'));
$read = array('tagid' => $tagid, 'name' => $name);
}
$tag_thread = array('tagid' => $read['tagid'], 'tid' => $tid);
$threadarr[] = $tag_thread;
$tagarr[$read['tagid']] = $read['name'];
}
}
!empty($threadarr) and tag_thread_big_insert($threadarr);
!empty($tagids) and well_tag_update($tagids, array('count+' => 1));
}
$json = empty($tagarr) ? '' : xn_json_encode($tagarr);
return $json;
}
?>return $r;
}
/**
* @param int $page 页数
* @param int $pagesize 每页显示数量
* @return mixed
*/
function link_find($page = 1, $pagesize = 100)
{
$arr = link__find($cond = array(), array('rank' => -1), $page, $pagesize);
return $arr;
}
/**
* @param $id
* @return bool 返回FALSE失败 TRUE成功
*/
function link_delete($id)
{
if (empty($id)) return FALSE;
$r = link__delete(array('id' => $id));
link_delete_cache();
return $r;
}
//--------------------------kv + cache--------------------------
/**
* @return mixed 返回全部友情链接
*/
function link_get($page = 1, $pagesize = 100)
{
$g_link = website_get('friends_link');
if (empty($g_link)) {
$g_link = link_find($page, $pagesize);
$g_link AND website_set('friends_link', $g_link);
}
return $g_link;
}
// delete kv and cache
function link_delete_cache()
{
website_set('friends_link', '');
return TRUE;
}
?> $v = implode(",", $v);
$temp[] = $v;
}
// 去掉重复的字符串,也就是重复的一维数组
$temp = array_unique($temp);
// 再将拆开的数组重新组装
$output = array();
foreach ($temp as $k => $v) {
if ($stkeep) $k = $starr[$k];
if ($ndformat) {
$temparr = explode(",", $v);
foreach ($temparr as $ndkey => $ndval) $output[$k][$ndarr[$ndkey]] = $ndval;
} else $output[$k] = explode(",", $v);
}
return $output;
}
// 合并二维数组 如重复 值以第一个数组值为准
function array2_merge($array1, $array2, $key = '')
{
if (empty($array1) || empty($array2)) return NULL;
$arr = array();
foreach ($array1 as $k => $v) {
isset($v[$key]) ? $arr[$v[$key]] = array_merge($v, $array2[$k]) : $arr[] = array_merge($v, $array2[$k]);
}
return $arr;
}
/*
* 对二维数组排序 两个数组必须有一个相同的键值
* $array1 需要排序数组
* $array2 按照该数组key排序
* */
function array2_sort_key($array1, $array2, $key = '')
{
if (empty($array1) || empty($array2)) return NULL;
$arr = array();
foreach ($array2 as $k => $v) {
if (isset($v[$key]) && $v[$key] == $array1[$v[$key]][$key]) {
$arr[$v[$key]] = $array1[$v[$key]];
} else {
$arr[] = $v;
}
}
return $arr;
}
?>
请教问题,有没有大佬帮忙看看网页乱码问题-软件玩家 - 软件改变生活!
自我介绍:不是计算机专业,甚至不沾边。长期上网对网页制作什么的只有一丁点皮毛知识。有一些爬虫技能,但仅限于从网页获取json并解析,类似的。
使用设备:
设备名称 DESKTOP-53730H2
处理器 12th Gen Intel(R) Core(TM) i7-12700 2.10 GHz
机带 RAM 32.0 GB (31.3 GB 可用)
设备 ID F9F3E092-CF01-4862-9DEC-00C1A4C39D78
产品 ID 00325-81388-30062-AAOEM
系统类型 64 位操作系统, 基于 x64 的处理器
笔和触控 没有可用于此显示器的笔或触控输入
版本 Windows 11 家庭版
版本 21H2
安装日期 2022/5/11
操作系统版本 22000.2538
体验 Windows 功能体验包 1000.22001.1000.0
背景叙述:我本来打算爬取全国水雨情信息,发现我的电脑打开这个网页看到的json是一些生僻字,但是网页本身显示没问题,如下图。
解决一:
确认json存储格式为utf-8,ensure_ascii=False;存储的json依旧是乱码。
def get_tides (date):
url = 'http://xxfb.mwr/OTMuhovshHolkdc/OTMbmdvbjQjosq'
headers = {
"Accept": "application/json, text/javascript, */*; q=0.01",
"Content-Type": "application/json;charset=UTF-8",
"Cookie": "__FT10000066=2024-3-16-13-46-27; __NRU10000066=1710567987611; __RT10000066=2024-3-16-13-46-27",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0",
"X-Requested-With": "XMLHttpRequest",
}
retries = 0
while retries < 5:
try:
r = requests.post(url, headers=headers)
r.raise_for_status()
data = r.json()
with open(f"{date.strftime('%Y-%m-%d')}.json", "w", encoding="utf-8") as f:
json.dump(data, f, ensure_ascii=False)
break
except (requests.exceptions.RequestException, json.JSONDecodeError) as e:
retries += 1
print(e)
get_tides(datetime.now())
font_file_uel = 'http://xxfb.mwr/ttf/aLVP5AhmbQ_1710586649773.eot?#iefix'
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content))
# ttf.save('sqsj.ttf')
ttf.saveXML('sqsj.xml')
于是天真的我以为这个网页被反爬了,就开始找字体库,并准备解析这个字体库,然后把json还原。后来进行到准备写字典,查看 ttf 的时候发现字太多了,根本统计不完,遂作罢。
解决二:
找了一个爬虫的老师帮我写爬虫代码,老师把代码给我后,我一看很简单,就是获取json然后解析,于是运行了。运行后发现得到的excel文件里的信息还是乱码。但是老师说他那边的文件是对的,他的网站打开也是对的。
老师获取的数据和网页截图:
所以我就很纳闷。。
解决三:
以为是自己访问过于频繁被限IP了,就远程了同学的电脑,同学跟我不在一个城市,用她的电脑查看了这个网页全国水雨情信息,发现同学的电脑看到的json也全是生僻字。
解决四:
以为是我电脑字体的问题,就修改了电脑--控制--时钟和区域--管理--更改系统区域设置--Beta版打勾--确认,发现没用。
我开始了漫长的找原因之旅。。
1)用IE模式打开了原网站,发现整个网页的主要内容全是乱码;
2)修改了网页编码为UTF-8,依旧是乱码;
3)确认了网页和json的编码格式的确是 UTF-8;
所以到底是为什么。。
我开始查资料,觉得是网页制作的bug。。但我毕竟不是专业的。。所以有没有 大神 能帮我看看这究竟是怎么回事
疑惑的点:
1. 为什么老师的浏览器可以看到完美的网页,而我下载的json全是乱码?
2. 我的操作过程有任何问题或者多余,都请老师们指出,我全都欣然接受,太想学习,太想知道了!
本文标签:
大佬乱码网页
更多相关文章
英文版WIN7系统中打开软件中文乱码解决办法
在win7英文版下,很多软件中文字体均显示问号,通过如下解决方案,经测试,可以完美解决: 一、 通过控制面板->时钟、语言
发表评论