MySQL单表千万级数据处理的思路分享

2022-05-15 0 182
目录
  • 项目背景
  • 改进思路
    • 观察数据特征
    • 多进程处理
  • 思路总结
    • 数据处理技巧

      项目背景

      在处理过程中,今天上午需要更新A字段,下午爬虫组完成了规格书或图片的爬取又需要更新图片和规格书字段,由于单表千万级深度翻页会导致处理速度越来越慢。

      select a,b,c from db.tb limit 10000 offset 9000000
      

      但是时间是有限的,是否有更好的方法去解决这种问题呢?

      改进思路

      是否有可以不需要深度翻页也可以进行数据更新的凭据?
      是的,利用自增id列

      观察数据特征

      此单表有自增id列且为主键,根据索引列查询数据和更新数据是最理想的途径。

      select a,b, c from db.tb where id=9999999;
      update db.tb set a=x where id=9999999;
      

      多进程处理

      每个进程处理一定id范围内的数据,这样既避免的深度翻页又可以同时多进程处理数据。
      提高数据查询速度的同时也提高了数据处理速度。
      下面是我编写的任务分配函数,供参考:

      def mission_handler(all_missions, worker_mission_size):
          """
          根据总任务数和每个worker的任务数计算出任务列表, 任务列表元素为(任务开始id, 任务结束id)。
          例: 总任务数100个,每个worker的任务数40, 那么任务列表为:[(1, 40), (41, 80), (81, 100)]
          :param all_missions: 总任务数
          :param worker_mission_size: 每个worker的最大任务数
          :return: [(start_id, end_id), (start_id, end_id), ...]
          """
          worker_mission_ids = []
          current_id = 0
          while current_id <= all_missions:
              start_id = all_missions if current_id + 1 >= all_missions else current_id + 1
              end_id = all_missions if current_id + worker_mission_size >= all_missions else current_id + worker_mission_size
              if start_id == end_id:
                  if worker_mission_ids[-1][1] == start_id:
                      break
              worker_mission_ids.append((start_id, end_id))
              current_id += worker_mission_size
      
          return worker_mission_ids
      

      假设单表id最大值为100, 然后我们希望每个进程处理20个id,那么任务列表将为:

      >>> mission_handler(100, 40)
      [(1, 40), (41, 80), (81, 100)]
      

      那么,
      进程1将只需要处理id between 1 to 40的数据;
      进程2将只需要处理id between 41 to 80的数据;
      进程3将只需要处理id between 81 to 100的数据。

      from concurrent.futures import ProcessPoolExecutor
      
      
      def main():
          # 自增id最大值
          max_id = 30000000
          # 单worker处理数据量
          worker_mission_size = 1000000
          # 使用多进程进行处理
          missions = mission_handler(max_id, worker_mission_size)
          workers = []
          executor = ProcessPoolExecutor()
          for idx, mission in enumerate(missions):
              start_id, end_id = mission
              workers.append(executor.submit(data_handler, start_id, end_id, idx))
      
      
      def data_handler(start_id, end_id, worker_id):
          pass
      

      思路总结

      1. 避免深度翻页进而使用自增id进行查询数据和数据
      2. 使用多进程处理数据

      数据处理技巧

      记录处理成功与处理失败的数据id,以便后续跟进处理

      # 用另外一张表记录处理状态
      insert into db.tb_handle_status(row_id, success) values (999, 0);
      

      循环体内进行异常捕获,避免程序异常退出

      def data_handler(start_id, end_id, worker_id):
          # 数据连接
          conn, cursor = mysql()
          current_id = start_id
              try:
                  while current_id <= end_id:
                      try:
                          # TODO 数据处理代码
                          pass
      
                      except Exception as e:
                          # TODO 记录处理结果
                          # 数据移动到下一条
                          current_id += 1
                          continue
                      else:
                          # 无异常,继续处理下一条数据
                          current_id += 1
              except Exception as e:
                  return 'worker_id({}): result({})'.format(worker_id, False)
              finally:
                  # 数据库资源释放
                  cursor.close()
                  conn.close()
      
              return 'worker_id({}): result({})'.format(worker_id, True)
      

      更新数据库数据尽量使用批量提交

      sql = """update db.tb set a=%s, b=%s where id=%s"""
      values = [
                  ('a_value', 'b_value', 9999),
                  ('a_value', 'b_value', 9998),
                  ...
               ]
      # 批量提交,减少网络io以及锁获取频率
      cursor.executemany(sql, values)
      

      以上就是MySQL单表千万级数据处理的思路分享的详细内容,更多关于MySQL单表千万级数据处理的资料请关注NICE源码其它相关文章!

      免责声明:
      1、本网站所有发布的源码、软件和资料均为收集各大资源网站整理而来;仅限用于学习和研究目的,您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 不得使用于非法商业用途,不得违反国家法律。否则后果自负!

      2、本站信息来自网络,版权争议与本站无关。一切关于该资源商业行为与www.niceym.com无关。
      如果您喜欢该程序,请支持正版源码、软件,购买注册,得到更好的正版服务。
      如有侵犯你版权的,请邮件与我们联系处理(邮箱:skknet@qq.com),本站将立即改正。

      NICE源码网 MySql MySQL单表千万级数据处理的思路分享 https://www.niceym.com/37721.html