CC BY-NC-ND 3.0
bdd
avec 2500 employés et les colonnes :
prenoms
depuis le fichier “Prenoms.csv” au hasard pondéré par la fréquencenoms
depuis le fichier “patronymes.csv” au hasard pondéré par la fréquencegenre
depuis le fichier “Prenoms.csv”dateN
une date de naissance entre 1955 et 2002 pour calculer l’âgehttps://www.data.gouv.fr/fr/datasets/liste-de-prenoms-et-patronymes/
1- Lister les différentes étapes
2- Se mettre d’accord sur les étapes
3- … et enfin coder en R
## X01_prenom X02_genre X03_langage X04_frequence
## 1 aaliyah f english (modern) 0
## 2 aapeli m finnish 0
## 3 aapo m finnish 0
## 4 aaren m,f english 0
## 5 aarne m finnish 0
## 6 aarón m spanish 0
## patronyme count
## 1 AABACH 2
## 2 AABADI 3
## 3 AABADLI 1
## 4 AABAIDA 1
## 5 AABAL 1
## 6 AABAR 5
myIndex <- seq(from = 1, to = nrow(bddPrenoms), by = 1)
mySample <-
as.character(
sample(
myIndex,
size = 2500,
replace = TRUE,
prob = bddPrenoms[,4]))
bdd <- bddPrenoms[mySample, c(1, 2)]
colnames(bdd) <- c("prenoms", "genre")
bdd$genre[
bdd$genre == "m,f" | bdd$genre == "f,m"] <-
sample(c("f","m"), size = 1)
## prenoms genre
## 6776 lucienne f
## 201 ah f
## 8522 paul m
## 8241 olivier m
## 10293 sylvie f
## 10279 sybil f
## prenoms noms genre dateN
## 1 lucienne SAFFON f 1986-12-17
## 2 ah LE BERRE f 1970-12-12
## 3 paul THOBOR m 1975-11-13
## 4 olivier DAVIDO m 1993-08-17
## 5 sylvie LAZAR f 1988-10-14
## 6 sybil DESOEUVRES f 1996-03-25
## 'data.frame': 2500 obs. of 4 variables:
## $ prenoms: Factor w/ 11617 levels "aaliyah","aapeli",..: 6774 201 8520 8239 10290 10276 5671 5431 3680 2682 ...
## $ noms : Factor w/ 877545 levels " B "," BEHAGUE",..: 725031 487986 800467 219300 487385 250818 170129 285783 96079 212031 ...
## $ genre : Factor w/ 4 levels "f","f,m","m",..: 1 1 3 3 1 1 3 1 3 3 ...
## $ dateN : Date, format: "1986-12-17" "1970-12-12" ...
## 'data.frame': 2500 obs. of 4 variables:
## $ prenoms: Factor w/ 11617 levels "aaliyah","aapeli",..: 6774 201 8520 8239 10290 10276 5671 5431 3680 2682 ...
## $ noms : Factor w/ 877545 levels " B "," BEHAGUE",..: 725031 487986 800467 219300 487385 250818 170129 285783 96079 212031 ...
## $ genre : Factor w/ 2 levels "f","m": 1 1 2 2 1 1 2 1 2 2 ...
## $ dateN : Date, format: "1986-12-17" "1970-12-12" ...
bdd
:
age
## prenoms noms genre dateN age
## 1 lucienne SAFFON f 1986-12-17 32
## 2 ah LE BERRE f 1970-12-12 48
## 3 paul THOBOR m 1975-11-13 43
## 4 olivier DAVIDO m 1993-08-17 26
## 5 sylvie LAZAR f 1988-10-14 30
## 6 sybil DESOEUVRES f 1996-03-25 23
##
## 1 2 3 4 5 6 7 8 9 10
## 35 45 58 57 54 50 53 49 53 61
nbrDepartsGenre <- table(
ageDepart[ageDepart <= 10],
bdd$genre[ageDepart <= 10])
print(nbrDepartsGenre)
##
## f m
## 1 12 23
## 2 15 30
## 3 34 24
## 4 28 29
## 5 25 29
## 6 23 27
## 7 29 24
## 8 26 23
## 9 30 23
## 10 36 25