(코드 오류와 해결 기록) dcast() : Aggregation function missing: defaulting to length

프로그래밍/R 공부

(코드 오류와 해결 기록) dcast() : Aggregation function missing: defaulting to length

방구석의 개굴이 2023. 7. 19. 09:58

혼공R이 p254 풀던 중 예시와 달리 앞 챕터에서 만든 데이터프레임을 dcast() 함수에 집어넣었더니

Aggregation function missing: defaulting to length

이런 오류가 나왔다 (~~티스토리는 이게 오류 코드인지 그냥 코드인지는 인식 못하고 그냥 글자대로만 인식하는 걸까?~~)

chat GPT한테도 물어봤는데 표면적으로만 해결하고 본질적인 문제는 해결하지 못해서 결국 추가적으로 공부를 하게 되었다.

오류의 원인을 알기 위해서는 (1) aggregation 함수, (2) length 함수, (3) "wind"와 "day"의 차이를 알아야하고 또 코드를 조금씩 바꿔서 실행해본 결과를 비교해서 오류를 해결할 수 있다.

오류의 원인 : 기본 지식

(1) aggregation() 함수

dcast() 함수를 실행하면 자동적으로 적용되는 옵션 중 하나인 aggregation() 함수는 R 기본함수 중 하나이다.

aggregate는 데이터의 특정 컬럼을 기준으로 통계량(FUN옵션에서 적용. mean, sum 등)을 구해주는 함수이다.

data frame에 적용할 때 코드

aggregate(data, by = '기준이 되는 컬럼', FUN)

> aggregate(airquality, list(reference.month = airquality$month), length)
  reference.month ozone solar.r wind temp month day
1               5    31      31   31   31    31  31
2               6    30      30   30   30    30  30
3               7    31      31   31   31    31  31
4               8    31      31   31   31    31  31
5               9    30      30   30   30    30  30

month를 reference로 새로운 컬럼을 형성했고 이걸 기준으로 각각의 변수에 대한 length를 세었다.

변수에 대해 formula를 적용할 때 코드

aggregate('함수를 적용하고자 하는 컬럼' ~ '기준이 되는 컬럼', data, FUN)

ex_aggregate <- aggregate(data = airquality, month + day ~ solar.r, length)
View(ex_aggregate)

코드가 비슷하니 결과도 비슷할 것 같지만 전혀 다른 결과가 나왔다.

> aggregate(airquality, month + day ~ solar.r)
Error in match.fun(FUN) : argument "FUN" is missing, with no default
> aggregate(airquality, month + day ~ solar.r, length)
Error in aggregate.data.frame(airquality, month + day ~ solar.r, length) : 
  'by' must be a list

이 결과를 얻으려다 나온 오류도 분석하고 싶지만 그러면 진도를 또 못 나갈 것 같으니 일단 패스

결론적으로 aggregate() 함수는 특정(하나 혹은 여러 개) 열을 기준으로 나머지 모든 열 또는 몇 개 열을 조건에 맞게 합쳐주는 함수이다.

https://m.blog.naver.com/coder1252/221294821930

R - 기본함수 - aggregate

&nbs...

blog.naver.com

참고한 블로그

(2) length() 함수

벡터의 길이, 데이터프레임의 열의 개수(통계 용어로는 빈도수)를 셀 때 사용하는 함수

> ex_vector1 <- c(1,2,3,4,5,6,7)
> ex_vector2 <- c(2,4,6,8,10,12,14)
> ex_vector3 <- c(3,6,9,12,15,18,21)
> length(ex_vector1)
[1] 7

> ex_dataframe <- data.frame(ex_vector1, ex_vector2, ex_vector3)
> length(ex_dataframe$ex_vector1)
[1] 7

> ex_dataframe
  ex_vector1 ex_vector2 ex_vector3
1          1          2          3
2          2          4          6
3          3          6          9
4          4          8         12
5          5         10         15
6          6         12         18
7          7         14         21

(3) "wind"열과 "day"열의 차이

> head(airquality)
  ozone solar.r wind temp month day
1    41     190  7.4   67     5   1
2    36     118  8.0   72     5   2
3    12     149 12.6   74     5   3
4    18     313 11.5   62     5   4
5    NA      NA 14.3   56     5   5
6    28      NA 14.9   66     5   6

- wind는 실수형, day는 정수형

- wind는 겹치는 게 논리적 의미가 없는 반면 day는 서로 같아도 month가 다르며 month와 day는 서로 다른 날짜를 가리킴

오류의 원인 : 결과 관찰

> # 앞 예제에서 사용했던 코드
> melt_test1 <- melt(airquality, id.vars = c("month", "wind"),
+                    measure.vars = "ozone")
> dcast_test1 <- dcast(melt_test1, month + wind ~ variable)
Aggregation function missing: defaulting to length
> 
> head(dcast_test1)
  month wind ozone
1     5  5.7     1
2     5  6.9     1
3     5  7.4     2
4     5  8.0     2
5     5  8.6     2
6     5  9.2     1
> tail(dcast_test1)
   month wind ozone
83     9 13.2     1
84     9 13.8     1
85     9 14.3     1
86     9 14.9     1
87     9 15.5     2
88     9 16.6     1

# 문제 : measure variable이 ozone 뿐이므로 dcast를 적용해도 원래대로 돌아오지 않음
+ 기본함수인 length 가 적용되므로 ozone의 농도가 아니라 관측된 행의 수만 결과로 반환됨. 
(ex. month = 5이고 wind - 5.7 인 날 ozone 이 채워진 행은 한 개 :: ozone =1)
+ 차라리 mean으로 설정하면 유의미함 

> # 이번 예제에서 새로 만든 코드
> melt_test2 <- melt(airquality, id.vars = c("month", "day"))
> dcast_test2 <- dcast(melt_test2, month + day ~ variable)
> 
> head(dcast_test2)
  month day ozone solar.r wind temp
1     5   1    41     190  7.4   67
2     5   2    36     118  8.0   72
3     5   3    12     149 12.6   74
4     5   4    18     313 11.5   62
5     5   5    NA      NA 14.3   56
6     5   6    28      NA 14.9   66
> tail(dcast_test2)
    month day ozone solar.r wind temp
148     9  25    14      20 16.6   63
149     9  26    30     193  6.9   70
150     9  27    NA     145 13.2   77
151     9  28    14     191 14.3   75
152     9  29    18     131  8.0   76
153     9  30    20     223 11.5   68

# 문제가 발생하지 않는 이유 : month + day를 reference로 잡으면 각각의 행이 identify 되어서 
fun.aggregate가 length로 적용되지 않고 원래 값을 적어주는듯? 
확실하게는 실제 코드 실행과정을 봐야겠지만...
> 
> # 두 개를 절충한(?) 코드
> melt_test3 <- melt(airquality, id.vars = c("month", "wind"))
> dcast_test3 <- dcast(melt_test3, month + wind ~ variable)
Aggregation function missing: defaulting to length
> 
> head(dcast_test3)
  month wind ozone solar.r temp day
1     5  5.7     1       1    1   1
2     5  6.9     1       1    1   1
3     5  7.4     2       2    2   2
4     5  8.0     2       2    2   2
5     5  8.6     2       2    2   2
6     5  9.2     1       1    1   1
> tail(dcast_test3)
   month wind ozone solar.r temp day
83     9 13.2     1       1    1   1
84     9 13.8     1       1    1   1
85     9 14.3     1       1    1   1
86     9 14.9     1       1    1   1
87     9 15.5     2       2    2   2
88     9 16.6     1       1    1   1

# 첫번째와 같이 fun.aggregate = length로 적용되어서 데이터가 날아갔다. 

> dcast_test3.1 <- dcast(melt_test3, month + wind ~ variable, fun.aggregate = mean)
> head(dcast_test3.1)
  month wind ozone solar.r temp  day
1     5  5.7   115   223.0 79.0 30.0
2     5  6.9     7      NA 74.0 11.0
3     5  7.4    39   234.5 71.5 16.0
4     5  8.0    NA      NA 64.5 14.5
5     5  8.6    NA   246.5 67.0  8.5
6     5  9.2    11   290.0 66.0 13.0

# 이렇게 하면 순서는 좀 뒤죽박죽이고 day 가 실수형으로 출력되는 문제가 있기는 하지만 
비교적 비슷하게 데이터를 복원할 수 있다.

오류의 해결

각각의 행이 의미 있으려면 month + day ~ variable 로 코드를 작성해주는 것이 맞다. 하지만 굳이 원래 코드를 쓰면서 데이터를 유지하고 싶다면 fun.aggregate = mean으로 해주면 됨

여담

보통의 오류는 그냥 R studio를 껐다가 켜면 그냥 해결됨.

'프로그래밍 > R 공부' 카테고리의 다른 글

[혼공학습단 10기] 혼자 공부하는 R 데이터 분석 Chapter 06 (2)	2023.08.20
[혼공학습단 10기] 혼자 공부하는 R 데이터 분석 Chapter 05 (2)	2023.08.03
[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 04 (8)	2023.07.12
[혼공 학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 03 (0)	2023.07.11
[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 02 (0)	2023.07.05

현재글(코드 오류와 해결 기록) dcast() : Aggregation function missing: defaulting to length

공부한 거 정리용

Today :
Yesterday :

개굴이네 방